You are on page 1of 93

ΟΑνιb J. BARTHOLOMEW-AONA STEELE- IRN MOUSTAΚI-JANE 1.

GALBRAITH

επ1κεντρο
ΚΕΦΆΛΑΙΟ 3ο

Πολυδιάστατη Κλιμάκωση

3.1 ΕΙΣΑΓΩΓΉ

Η πολυδιάστατη κλιμάκωση (multidimensional scaling) είναι


μια από τις πολλές πολυμεταβλητές τεχνικές, οι οποίες στο­
χεύουν στην ανακάλυψη της δομής του συνόλου των δεδομέ­
νων σχεδιάζοντας σημεία σε μια ή δυο διαστάσεις. Η κεντρι­
κή ιδέα έχει αφετηρία ένα γεωγραφικό παράδειγμα. Υποθέ­
στε ότι μας δίνονται οι αποστάσεις μεταξύ ζευγαριών πόλεων
και μας ζητείται να ξανακατασκευάσουμε το δισδιάστατο
χάρτη από τον οποίο πήραμε αρχικά τις αποστάσεις. Μπο­
ρούμε να επιτύχουμε κάτι τέτοιο με μια διαδικασία δοκιμής
και λάθους μετακινώντας τριγύρω τα σημεία πάνω σ' ένα
φύλλο χαρτιού μέχρι να πετύχουμε σωστά τις αποστάσεις. Η
διαδικασία δοκιμής με την οποία αυτόματα αυτό επιτυγχάνε ­
ται ονομάζεται πολυδιάστατη κλιμάκωση (MDS). Το πρώτο
συνθετικό της λέξης «πολυδιάστατη» αναφέρεται στο γεγονός
ότι η κατασκευή χαρτών δεν περιορίζεται στη χρήση μονάχα
μιας ή δυο διαστάσεων.
Το απλό αυτό παράδειγμα διαφέρει σε δυο σημεία από
τα τυπικά προβλήματα πολυδιάστατης κλιμάκωσης. Αρχι­
κά, δεν υπάρχει καμία ασάφεια όσον αφορά στο τι εννοού­
με με την έννοια «απόσταση» ανάμεσα σε δυο πόλεις (με­
τρημένη σε μίλια ή χιλιόμετρα σε μια ευθεία γραμμή), ενώ
σε ένα τυπικό πρόβλημα MDS υπάρχει ένα ποσοστό αυθαι­
ρεσίας στον ορισμό της απόστασης, το οποίο σε μερικές πε­
ριπτώσεις μπορεί και να βασίζεται σε υποκειμενικές υποθέ­
σεις και όχι σε πραγματικές μετρήσεις. Κατά δεύτερον,
Ι2.2. Ανάλυση πολυμεταβλητών δεδομi,ιων για κοινωνικές επuπήμες

γνωρίζουμε ότι οι πόλεις αναπαρίστανται σε ένα δισδιάστα­


το χάρτη (δεδομένου ότι μπορούμε να αγνοήσουμε την κα­
μπυλότητα της Γης, καθώς και άλλα τοπογραφικά σημεία),
ενώ στα τυπικά προβλήματα MDS δεν γνωρίζουμε πόσες δι­
αστάσεις ακριβώς χρειάζονται για να αναπαραστήσουμε, έ­
στω και κατά προσέγγιση, τις δεδομένες αποστάσεις των α­
ντικειμένων που μας ενδιαφέρουν. Πράγματι, ένα από τα
πρωταρχικά αντικείμενα της ανάλυσης θα είναι να δούμε ε­
άν μια τέτοια παρουσίαση είναι δυνατό να γίνει σε μικρότε­
ρο αριθμό διαστάσεων . Εάν κάτι τέτοιο δεν μπορεί να γίνει,
κατά προτίμηση σε μια ή δυο διαστάσεις, δεν θα μπορέσου­
με να εκμεταλλευτούμε τη δυνατότητα που έχει το μάτι να
εντοπίσει το σχηματισμό στα γραφήματα. Ακόμη και αν α­
ποδειχθεί ότι απαιτούνται περισσότερες από δύο διαστά­
σεις, τελικά ο βασικός τρόπος με τον οποίο μπορούμε να
δούμε τα σημεία, είναι να τα αναπαραστήσουμε στο δισδιά­
στατο χώρο.
Τα δεδομένα εισαγωγής για τη MDS είναι σε μορφή πίνα­
κα αποστάσεων και μας δείχνουν τις αποστάσεις ανάμεσα σε
ζευγάρια αντικειμένων. Έχουμε ήδη συζητήσει για την κατα­
σκευή τέτοιων πινάκων στο Κεφάλαιο 2 και δεν υπάρχει κά­
τι να προσθέσουμε στο σημείο αυτό. Παρ' όλα αυτά , ενώ η ε­
πιλογή ανάμεσα στην απόσταση και στην εγγύτητα ήταν ένα
μεγάλο θέμα στην ανάλυση κατά συστάδες, στη MDS το βα­
σικό στοιχείο είναι η απόσταση. Έτσι, παρόλο που μπορού­
με να ξεκινήσουμε με έναν πίνακα εγγυτήτων ή ομοιοτήτων,
προκειμένου να πραγματοποιηθεί η ανάλυση, ίσως χρειαστεί
να τον μετατρέψουμε σε πίνακα αποστάσεων. Το αποτέλε­
σμα θα εκφραστεί σε όρους απόστασης.
Όπως έχουμε ήδη αναφέρει, η MDS χρησιμοποιείται για
να καθορίσουμε εάν ο πίνακας αποστάσεων μπορεί να ανα­
παρασταθεί από ένα χάρτη ή σε έναν σχηματισμό με μικρό
αριθμό διαστάσεων, τέτοιο ώστε οι αποστάσεις στο χάρτη ν'
αναπαράγουν, κατά προσέγγιση, τις αρχικές αποστάσεις του
πίνακα {δij}. Για παράδειγμα, στόχος θα ήταν να έχουμε,
Πολυδιάστατη Κλιμάκωση 12.3

σύμφωνα με τον πίνακα αποστάσεων, τα δυο αντικείμενα


που είναι πιο κοντά το ένα στο άλλο, να είναι πιο κοντά και
στον χάρτη κ.ο.κ. Έτσι όπως θέσαμε το πρόβλημα, οι απο­
στάσεις στο χάρτη θα είναι στο ίδιο μετρικό σύστημα (κλίμα­
κα μέτρησης), όπως τα αρχικά {δiί}. Αυτό είναι κοινώς γνω­
στό ως κλασική πολυδιάστατη κλιμάκωση. Παρόλα ταύτα, είναι
συχνό φαινόμενο ιδιαίτερα στις έρευνες των κοινωνικών επι­
στήμων, οι τιμές των {δiί} να ερμηνεύονται μόνο (σε σχέση με
την διάταξή τους) όπως, για παράδειγμα, εαν οι αποστάσεις
προέρχονται από υποκειμενικούς δείκτες ομοιότητας. Σε τέ­
τοιες περιπτώσεις, θα ήταν πιο σωστό να επιχειρήσουμε να
κατασκευάσουμε ένα χάρτη, στον οποίο οι διαστάσεις να έ­
χουν το σωστό βαθμό διάταξης . Αυτό ονομάζεται διατάξιμη
ή μη μετρική πολυδιάστατη κλιμάκωση. Σ' αυτό το κεφαλαί­
ο θα ασχοληθούμε κυρίως με τη διατάξιμη MDS. Στο δεύτε­
ρο παράδειγμα, στην Παράγραφο 3.2 που ακολουθεί, ζητή­
θηκε από φοιτητές ν' αξιολογήσουν το βαθμό ομοιότητας με­
ταξύ ζευγών χωρών σε μια κλίμακα εννέα βαθμών. Η ομοιό­
τητα εδώ είναι κάτι το υποκειμενικό για το οποίο δεν υπάρ­
χει αντίστοιχο φυσικό νόημα που να την αντικατοπτρίζει.
Μέρος του ενδιαφέροντός μας στην ανάλυση είναι η προ­
σπάθεια να εντοπίσουμε τα χαρακτηριστικά των χωρών τα ο­
ποία φαίνεται να έχουν μεγαλύτερη βαρύτητα στα κριτήρια
των φοιτητών για το τι είναι ομοιότητα.
Επιστρέφοντας στην κλασική κλιμάκωση, υποθέτουμε
πως έχουμε τέσσερις πόλεις και τις συμβολίζουμε με τα
γράμματα Α, Β, C και D των οποίων οι αποστάσεις (σε εκα­
τοντάδες μίλια) μεταξύ τους δίνονται στον ακόλουθο πίνακα:

3 _)
3 6
12.4 Ανάλυση πολυμεταβλητών δεδομLνων για κοινωνικές επιστήμες

Χρησιμοποιώντας πολυδιάστατη κλιμάκωση (ή με μια α­


πλή ματιά), είναι πιθανόν να αναπαρασταθεί με ακρίβεια ο
πίνακας των αποστάσεων σε μια διάσταση. Μια πιθανή λύση
δίνεται στο Σχήμα 3. 1:
C Α Β D

2 4 7
Dimension 1

Σχήμα 3.1 Μονοδιάστατος σχεδιασμός τεσσάρων πόλεων με τη χρή­


ση της κλασικής MDS

Δηλώνουμε την απόσταση μεταξύ των i και j όπως εμφα­


νίζεται στο παραπάνω διάγραμμα ως dij και σε αυτή την πε ­
ρίπτωση, οι αποστάσεις αυτές είναι ακριβώς ίσες με τις
πραγματικές δij. Στην κλασική MDS αναζητούμε μια μορφή
έτσι ώστε τα dψ οι αποστάσεις μεταξύ των σημείων στο διά­
γραμμα , να είναι κατά προσέγγιση ίσες με τα αντίστοιχα δij
όπως φαίνεται στον πίνακα αποστάσεων . Από την άλλη με­
ριά, στη διατάξιμη MDS, σκοπός είναι να βρεθεί μια τέτοια
μορφή ώστε τα dij να είναι στην ίδια διάταξη βαθμού όπως
τα αντίστοιχα δij.
Δεδομένης της ευκλείδειας απόστασης n παρατηρήσεων ,
αν και δεν είναι πολύ χρήσιμο, είναι πάντοτε μαθηματικά ε­
φικτό να βρούμε μια διαγραμματική μορφή σε (n-1) διαστά­
σεις που να ταιριάζει απόλυτα . Ο στόχος μας είναι να πετύ­
χουμε μια αρκετά καλή κατά προσέγγιση αναπαράσταση σ' έ­
να μικρό αριθμό διαστάσεων .

Μέτρα ομοιότητας μεταξύ μεταβλητών

Στην Παράγραφο 2.7 έχουμε ήδη αναφέρει ότι μπορεί κά­


ποιος να αντιστρέψει τους ρόλους των μεταβλητών και των
παρατηρήσεων. Αντί για ομαδοποίηση παρατηρήσεων, η ο­
ποία αποτελούσε το κύριο ενδιαφέρον μας, θα μπορούσαμε
Πολυδιάστατη Κλιμάκωση 125

να έχουμε ομαδοποιήσει μεταβλητές. Αυτή η διττότητα προ­


κύπτει σε όλες τις αναλύσεις που ξεκινούν από έναν πίνακα
δεδομένων . Εάν επιθυμούσαμε να φέρουμε σε πέρας μια α­
νάλυση βασισμένη σε μεταβλητές, θα χρειαζόμασταν μέτρα
ομοιότητας μεταξύ των στηλών του πίνακα δεδομένων αντί
των γραμμών.

3.2 Παραδείγματα

Αναπαριστώντας ένα δισδιάστατο χάρτη με αποστάσεις σε


μίλια αέρος ανάμεσα σε ζεύγη πόλεων

Η MDS χρησιμοποιήθηκε για να καθοριστεί εάν μπορεί


να παραχθεί ένας δισδιάστατος χάρτης από έναν πίνακα με
ζευγάρια αποστάσεων ανάμεσα σε δέκα πόλεις στην Ευρώπη
και την Ασία. Οι ανομοιότητες ή οι αποστάσεις παρουσιάζο­
νται στον Πίνακα 3.1.

Πίνακας 3.1 Αποστάσεις μεταξύ δέκα πόλεων σε μίλια αέρος

Λονδίνο Βερολίνο Όσλο Μόσχα Παρίσι Ρώμη Πεκίνο Κων/πολ~ Γιβeαλτάρ Ρέικια~ικ

Λονδίνο

Βερολίνο 570
Όσλο 710 520
Μόσχα 1550 1000 1020
Παρίσι 210 540 830 1 540
Ρώμη 890 730 1240 1470 680
Πεκίνο 5050 4570 4360 3600 5100 5050
Κων/πολη 1550 1080 1520 1090 1040 850 4380
Γιβραλτάρ 1090 1450 1790 2410 960 1030 6010 1870
Ρέικια~ικ 1170 1480 1080 2060 1380 2040 4900 2560 2050

Το αποτέλεσμα από μια κλασική MDS σε δυο διαστάσεις


φαίνεται στο Σχήμα 3.2.
Η MDS έχει χαρτογραφήσει σημεία σε δισδιάστατο χώρο
12.6 Ανάλυση nολυμεταβλψών δεδομένων για κοινωνικές επιστήμες

έτσι, ώστε οι «ευθείες γραμμές» (ευκλείδειες) των αποστάσε­


ων μεταξύ των σημείων dij να συμπίπτουν με τις παρατηρού­
μενες αποστάσεις δϋ . Οι αποστάσεις dij συμπίπτουν κατά πο­
λύ με τις αποστάσεις (επαναπροσδιορισμένες) δij. Δεν είναι α­
κριβώς ίσες μεταξύ τους, επειδή οι αποστάσεις δij δεν είναι
«ευθείες γραμμές», αλλά είναι αποστάσεις κατά μήκος μιας
σφαιρικής επιφάνειας.

6000

""4000
6
D
5
~

~ing
2000 Θilf'1Ιar

ο 2000 4000 6000


Διάσταση 1

Σχήμα 3.2 Δισδιάστατος χάρτης 1Ο πόλεων από μια κλασική MDS

Στο Σχήμα 3.2 μπορούμε να αναγνωρίσουμε το χάρτη της


Ευρώπης και της Ασίας. Εντούτοις, θα πρέπει να γίνει περι­
στροφή ή και αντανάκλαση προκειμένου να διευκρινιστεί η
ερμηνεία του. Τρία σημαντικά σημεία για την ερμηνεία της
MDS είναι:

Ι. Η αντανάκλαση της σχηματικής απεικόνισης δεν αλλά-


Πολυδιάστατη Κλιμάκωοη r27

ζει τις αποστάσεις των εσωτερικών σημείων .


ΙΙ. Οι αποστάσεις των εσωτερικών σημείων δεν επηρεά­
ζονται, εάν αλλάξουμε την αρχή του σχήματος προ­
σθέτοντας ή αφαιρώντας μια σταθερά από τις συντε­
ταγμένες της γραμμής ή της στήλης.
ΙΙΙ. Το σύνολο των σημείων μπορεί να περιστραφεί χωρίς
να επηρεάζει τις αποστάσεις των εσωτερικών σημεί­
ων. Στο ίδιο συμπέρασμα θα οδηγηθούμε εάν περι­
στρέψουμε τους άξονες.

Για το λόγο αυτό θα πρέπει να είμαστε έτοιμοι να μελετή­


σουμε το πιο αξιόλογο σύνολο αξόνων όταν ερμηνεύουμε έ­
να αποτέλεσμα της MDS. Αυτή η ιδέα γίνεται περισσότερο
κατανοητή στο ακόλουθο παράδειγμα . Συνοψίζοντας , η ερ­
μηνεία που δίνουμε για κάθε αποτέλεσμα της MDS πρέπει
να μένει αναλλοίωτη μετά από κάθε αντανάκλαση, μετατόπι­
ση και περιστροφή.

Μια προσπάθεια προσδιορισμού των διαστάσεων που διέ­


πουν τις εκτιμήσεις ομοιοτήτων για τα ζεύγη των 12 χωρών

Το 1968, μια ομάδα 18 φοιτητών κλήθηκε να εκτιμήσει


το βαθμό ομοιότητας ανάμεσα σε κάθε ζεύγος από 18 χώρες
σε μια κλίμακα από το l(πολύ διαφορετικό) έως το 9 (όμοι­
ο). Η μελέτη περιγράφεται από τους Kruskal και Wish
(1994), η δική μας όμως ανάλυση είναι ελαφρά διαφορετι­
κή . Οι μέσοι βαθμοί ομοιότητας έχουν υπολογιστεί από τους
ψοιτητ ές και τα αποτελέσματα ψαίνονται στον παρακάτω
πίνακα ομοιότητας.
128 Ανάλυση nολψ,ααβλητwν δεδομένων για κοινωνικές εnιοτ,y,ες

Πίνακας 3.2 Υποκειμενικές ομοιότητες μεταξύ των ζευγαριών των 12


χωρών
Βραζιλία Κονγκ6 Κούβα Αίγυπτος Γαλλία Ινδία Ισραήλ Ιαπωνία Κίνα Ρωσία ΗΠΑ Γιουγκο

σλα ία

Βραζιλία

Κονγκό 4,83
Κούβα 5,28 4,56
Αίγυπτος 3,44 5,00 5,17
Γαλλία 4,72 4,00 4,11 4,78
Ινδία 4,50 4,83 4,00 5,83 3,44
Ισραήλ 3,83 3,33 3,61 4,67 4,00 4,11
Ιαπωνία 3,50 3,39 2,94 3,83 4,22 4,50 4,83
Κίνα 2,39 4,00 5,50 4,39 3,67 4,11 3,00 4,17
Ρωσία 3,06 3,39 5,44 4,39 5,06 4,50 4,17 4,61 5,72
ΗΠΑ 5,39 2,39 3,17 3,33 5,94 4,28 5,94 6,06 2,56 5,00
Γιουγκο

σλα~ία 3,17 3,50 5,11 4,28 4,72 4,00 4,44 4,28 5,06 6,67 3,56

Σε αυτόν τον πίνακα ομοιοτήτων εφαρμόστηκε η διατάξι­


μη MDS, επειδή οι ομοιότητες είναι βασισμένες σε υποκειμε­
νικές εκτιμήσεις. Το δισδιάστατο αποτέλεσμα παρουσιάζε­
ται παρακάτω στο Σχήμα 3.3.
Αυτό που πρέπει να εξεταστεί είναι εάν μπορούμε να
προσδιορίσουμε τι μεταβάλλεται καθώς μετακινούμαστε
στους δύο άξονες. Για παράδειγμα, τι διαφορές έχουν οι χώ­
ρες που εμφανίζονται στα δεξιά του διαγράμματος με αυτές
στα αριστερά ή αυτές που βλέπουμε στην κορυφή του δια­
γράμματος με αυτές που βρίσκονται στη βάση; Τίποτα ιδιαί­
τερο δεν φαίνεται να προκύπτει από τέτοιου είδους συγκρί­
σεις, πρέπ ει όμως να θυμόμαστε ότι ο προσανατολισμός εί­
ναι αυθαίρετος και ενδεχομένως το μήνυμα να γίνει σαφέστε­
ρο, εάν σκεφτούμε άλλες περιστροφές. Οι διακεκομμένοι ά­
ξονες στο Σχήμα 3.3 αντιστοιχούν σε μια περιστροφή, η ο­
ποία ερμηνεύει τις πιο σημαντικές μεταβλητές. Ο Kruskal
και ο Wish (1994), σ. 326, σημείωσαν ότι η μεταβλητότητα
Πολvδιάσιιπη Κλιμάκωση 12.9

στην κατεύθυνση των αξόνων από κάτω αριστερά προς τα


πάνω δεξιά αντιστοιχεί σε μια τάση υπέρ της Δύσης ή υπέρ
των κομμουνιστικών χωρών. Αυτές που βρίσκονται πάνω δε­
ξιά είναι περισσότερο υπέρ του κομμουνισμού και αυτές που
βρίσκονται κάτω αριστερά είναι περισσότερο υπέρ της Δύ­
σης. Η μεταβλητότητα στην κατεύθυνση των δεξιών γωνιών
διαχωρίζει τις ήδη ανεπτυγμένες (πάνω αριστερά) από τις α­
ναπτυσσόμενες (κάτω δεξιά) χώρες. Από εδώ φαίνεται ότι
κατά την κρίση των φοιτητών ελήφθησαν υπόψη είτε συνει­
δητά είτε υποσυνείδητα δυο τύποι διαφορών. Η ανάλυσή μας
βοήθησε στην αναγνώριση των δυο αυτών διαστάσεων.
Αξίζει να προσθέσουμε δύο προειδοποιητικές παρατηρή­
σεις για αυτό το παράδειγμα. Οι διαφορές εντοπίσθηκαν
βρίσκοντας το μέσο όρο από τις εργασίες των φοιτητών. Γι'
αυτό, αναμφιβόλως, συμπεραίνουμε ό,τι όλοι χρησιμοποίη­
σαν τις ίδιες δυο διαστάσεις και όλοι δίνουν το ίδιο σχετικό
βάρος. Ίσως βέβαια να μην είναι σωστό το συμπέρασμά μας
και για το λόγο αυτό θα ήταν χρήσιμο να υπήρχε κάποια μέ­
θοδος για να το διαπιστώσουμε με σιγουριά. Τέτοιες μέθο­
δοι, γνωστές ως κλιμακοποίηση παρατηρήσεων (lndividual
Scaling) ή κλιμακοποίηση 3-Way, είναι διαθέσιμες, αλλά δεν
αποτελούν αντικείμενο του παρόντος βιβλίου (δείτε για πα­
ράδειγμα Borg και Groenen (1997) ή Kruskal και Wish
(1994)).
130 Ανάλυση πολυμεταβλητών δεδομένων γ~α κοινωνικές επιστήμες

.,PRO-COMMUNIST
1

·'
i
1
Aussia

f
1
Yugo_rιavίa

1
/
i

USA • Cuba
... lsrael
-1

~ DEVELOPING

.i
Ι

.i
/Br_:ziΙ

PRO-WESTERN; -1

Σχήμα 3.3. Διάγραμμα δύο διαστάσεων των 12 χωρών από την


δzατάξιμη MDS

Μια δεύτερη παρατήρηση είναι ότι ο προσδιορισμός των


ερμηνεύσιμων αξόνων σε ένα σχεδιάγραμμα δεν είναι πάντα
ο καλύτερος τρόπος για τον εντοπισμό σχηματισμών που να
έχουν κάποιο ενδιαφέρον. Ίσως να μπορούμε να προσδιορί­
σουμε κλάσεις σημείων που έχουν πρακτική σημασία, όπως
στο ακουστικό παράδειγμα σύγχυσης στην Παράγραφο 3.7 ή
όπως στο παράδειγμα των χρωματικών δεδομένων στην Π α­
ράγραφο 3.6. Η ένδειξη ύπαρξης τέτοιου είδους σημείων
μπορεί να βρίσκεται στην «πεταλοειδή» μορφή του δισδιά­
στατου σχεδιαγράμματος.
Πολυδιάστατη Κλιμάκωση Ι3Ι

3.3 Κλασική, διατάξιμη και μετρική


πολυδιάστατη κλιμάκωση

Θέτουμε τώρα το πρόβλημα της πολυδιάστατης κλιμάκωσης


με πιο επίσημους όρους, έτσι ώστε να μπορούμε να περιγρά­
ψουμε τους αλγορίθμους που χρησιμοποιούνται για να κατα­
λήξουμε σε ένα αποτέλεσμα.

Κλασική κλιμάκωση

Στην κλασική MDS στόχος είναι να βρεθεί ένας σχηματισμός


με μικρό αριθμό διαστάσεων, έτσι ώστε οι αποστάσεις μετα­
ξύ των σημείων στο σχηματισμό diJ να είναι κοντά στις τιμές
των παρατηρούμενων αποστάσεων δψ Η μέθοδος επεξεργά­
ζεται τις αποστάσεις ως ευκλείδειες. Στο Κεφάλαιο 2 είδαμε
πώς να μεταφερόμαστε από έναν πίνακα δεδομένων σε έναν
πίνακα ευκλείδειων αποστάσεων. Εδώ πρέπει να ακολουθή­
σουμε αντίθετη κατεύθυνση και να ανακατασκευάσουμε τον
πίνακα δεδομένων από τις αποστάσεις: Δεν μπορούμε να α­
νακτήσουμε όλες τις πληροφορίες όσον αφορά στη θέση και
τον προσανατολισμό, επειδή χάνονται στη διαδικασία υπο­
λογισμού των αποστάσεων, αλλά μπορούμε να καθορίσουμε
το σχηματισμό . Αυτό το πρόβλημα μπορεί να αντιμετωπι­
στεί αλγεβρικά και φαίνεται ότι η λύση μας δίνει μια σειρά
προσεγγίσεων αρχίζοντας με μια διάσταση, έπειτα δύο κ.λπ.
Παρ' όλα αυτά, ισχύει ότι τα μαθηματικά που εμπλέκονται
στο πρόβλημα πρέπει να είναι ισοδύναμα με αυτά που χρη­
σιμοποιούνται για ένα άλλο πρόβλημα για το οποίο η λύση
είναι ήδη γνωστή. Αυτό μας δίνει έναν ενδιαφέροντα σύνδε­
σμο με την ανάλυση κύριων συνιστωσών, την οποία θα εξε­
τάσουμε στο Κεφάλαιο 5. Θα επιστρέψουμε σε αυτή τη σύν­
δεση στο κεφάλαιο αυτό, προετοιμάζουμε όμως το έδαφος
εκφράζοντας ένα κλασικό πρόβλημα MDS με έναν ελαφρά
διαφορετικό τρόπο . Εάν αρχίσουμε με έναν πίνακα δεδομέ­
νων n χ p, κατασκευάζουμε αρχικά τον πίνακα αποστάσεων
132. Ανάλυοη πολυμααβλητών δεδομένuJV γ~α κοινων~κiς επιστήμες

και ίσως έπειτα να επιδιώξουμε να βρούμε το δισδιάστατο ή


τρισδιάστατο χάρτη, στον οποίο οι εσωτερικές αποστάσεις
είναι όσο το δυνατόν πιο κοντά στις πραγματικές αποστά­
σεις. Μια διαφορετική προσέγγιση είναι να πούμε ότι ανα­
ζητούμε έναν καινούριο πίνακα δεδομένων με δυο ή τρεις
στήλες, ο οποίος να πλησιάζει τον αρχικό πίνακα με την έν­
νοια ότι μας αποδίδει (σχεδόν) τον ίδιο πίνακα αποστάσεων.
Έχοντας βρει μια λύση, ελπίζουμε να έχουμε ένα μέτρο
για το πόσο καλή είναι η προσαρμογή . Αυτό θα ήταν ιδιαίτε­
ρα χρήσιμο για μας για να αποφασίσουμε πόσες διαστάσεις
απαιτούνται για να σχηματιστεί μια ικανοποιητική προσαρ­
μογή. Ένας προφανής τρόπος για να γίνει αυτό είναι να εξε­
ταστεί το άθροισμα τετραγώνων Σi-<J (dij - δij) 2 (αυτό αρμόζει
από μαθηματική άποψη δεδομένου ότι η εφαρμογή που επι­
τυγχάνεται είναι καλύτερη κατά την έννοια των ελαχίστων τε­
τραγώνων). Παρ' όλα αυτά, το απλό άθροισμα τετραγώνων ε­
ξαρτάται από την κλίμακα στην οποία οι αποστάσεις υπολο­
γίζονται. Επομένως, είναι προτιμότερο να κανονικοποιούμε
το άθροισμα τετραγώνων και προκειμένου να εξαρτάται από
τις ίδιες μονάδες με τις αποστάσεις, πρέπει να πάρουμε την
τετραγωνική του ρίζα. Το μέτρο έλεγχου καλής προσαρμο­
γής είναι τότε

Σ ί-<..J
(d.-δ
u IJ

\ ). d~
Αυτό το μέτρο ονομάζεται stress ή μερικές φορές κανονι-
κοποιημένο stress. Υπάρχουν πολλοί άλλοι τρόποι υπολογι­
σμού ενός μέτρου κανονικοποιημένου stress. Ένα εναλλα­
κτικό μέτρο, η.χ. μπορεί να επιτευχθεί με την αντικατάστα­
ση των dij με τα δij στον παρονομαστή της σχέσης (3.1). Οι
τιμές του stress που είναι κοντά στο μηδέν θα έδειχναν ότι
η λύση της MDS είναι καλά προσαρμοσμένη στις πραγμα­
τικές τιμές δij.
Πολυδιάστατη Κλιμάκωοη 133

Διατάξιμη (μη μετρική) κλιμακοποίηση

Πολύ συχνά δεν είναι η πραγματική τιμή των δij που είναι
σημαντική ή εμπεριέχει κάποιο νόημα, αλλά η τιμή τους σε
σχέση με τις αποστάσεις μεταξύ άλλων ζευγαριών . Αυτό είναι
αληθές ιδιαίτερα όταν τα δiJ είναι αποτέλεσμα ενός πειράμα­
τος όπου τα θέματα για τα οποία οι ερωτώμενοι καλούνται να
δώσουν τις υποκειμενικές τους αξιολογήσεις, αφορούν στην
απόσταση μεταξύ των αντικειμένων. Σε τέτοιες περιπτώσεις,
τα δij μπορεί να ερμηνευθούν μόνο με μια διατάξιμη κλίμα­
κα. Στη διατάξιμη MDS, στόχος είναι να βρεθεί ένας σχηματι­
σμός έτσι ώστε τα dij να είναι στην ίδια διάταξη βαθμού όπως
τα πραγματικά δiJ. Έτσι, π.χ., εάν η απόσταση μεταξύ των
αντικειμένων 1 και 3 είναι η πέμπτη μεγαλύτερη/μικρότερη
στα δij, πρέπει επίσης να είναι πέμπτη στην σειρά και στο
σχηματισμό της MDS. Όπως σημειώνεται στην Παράγραφο
3.1, σε αυτό το κεφάλαιο δίνεται έμφαση στην διατάξιμη
MDS.
Στην διατάξιμη MDS, κατασκευάζουμε τις προσαρμοσμέ-
Λ

νες αποστάσεις, συχνά αποκαλο~μενες ως ανομοιότητες diJ (dis-


parities ), από τις diJ έτσι ώστε οι dijvα είναι στην ίδια διάταξη
βαθμού με τα δiJ. Μπορεί να σκεφτούμε τα JiJ ως «smoothed»
(ομαλές ή λείες) εκδόσεις των dij (μαθηματικό σύμβολο). Αυ­
τή η διαδικασία ομαλοποίησης πραγματοποιείται χρησιμο­
ποιώντας μια μέθοδο αποκαλούμενη ως least-squares mono-
tonic regression (μονοτονική παλινδρόμηση ελαχίστων τε­
τραγώνων) («μονοτονική» σημαίνει ότι η καμπύλη παλινδρό­
μησης είναι είτε μη φθίνουσα ή μη αύξουσα). Χρησιμοποιώ­
ντας αυτήν τη μέθοδο έχουμε παλινδρόμηση των dij στα δiJ. Σε
ένα γράφημα των dij ως προς τα δψ θα θέλαμε να δούμε μια
μονοτονική καμπύλη (μια καμπύλη στην οποία οι γραμμές
που ενώνουν τα παρακείμενα σημεία είναι επίπεδες ή ελατ­
τωμένες, εάν τα δij είναι ομοιότητες ή επίπεδες ή αυξανόμε­
νες, εάν τα δij είναι ανομοιότητες). Εάν τα dij και τα δiJ έχουν
την ίδια διάταξη βαθμού, τότε το γράφημα θα παρουσιάσει
134 Ανάλυση πολυμεταβλητών δεδομένων για κοινωνικές επιστήμες

μια τέτοια μονοτονική καμπύλη με αποτέλεσμα τα dij να μη


χρειαστούν ομαλοποίηση (smoothing). Εντούτοις, κανονικά
θα υπάρξει κάποια απόκλιση από τη μονοτονικότητα, με
αποτέλεσμα να είναι απαραίτητη κάποια ομαλοποίηση
(smoothing). Στόχος της μονοτονικής παλινδρόμησης είναι
να προσαρμόσει μια μονοτονική καμπύλη στα σημεία (dψ
δij), ελαχιστοποιώντας παράλληλα το άθροισμα τετραγώνων
των κάθετων αποκλίσεων (όπως στη γραμμική παλινδρόμη-
Λ

ση ελαχίστων τετραγώνων). Το σημείο dij στη μονοτονική κα-


μπύλη είναι η προσαρμοσμένη ή προβλεπόμενη τιμή του dij
από τη μονοτονική παλινδρόμηση. Στην απόφαση για το πο­
σο καλή είναι η προσαρμογή, ενδιαφερόμαστε τώρα για το
πόσο κοντά οι αποστάσεις dij είναι στις ανομοιότητες dψ παρά
στις παρατηρούμενες αποστάσεις δij. Αυτό συμβαίνει γιατί
στοχεύουμε μόνο να αναπαραγάγουμε τη διάταξη βαθμού
των παρατηρούμενων αποστάσεων και όχι καθαυτές τις απο­
στάσεις. Ως εκ τούτου, το δικό μας μέτρο προσαρμογής, υπο­
λογίζεται από την έξυπνη αντικατά~αση των δij από τα dij
στον τύπο που αφορά στη «stress» (τα dij και δij έχουν την ίδια
διάταξη βαθμού). Κατά συνέπεια στην τακτική MDS, η
«stress» υπολογίζεται ως

Αυτό είναι επίσης γνωστό ως Kruskal's stress, τύπου Ι (την


οποία απλά αναφέρουμε ως «stress» ). Ο καλύτερος δυνατός
σχηματισμός προσδιορίζεται ελαχιστοποιώντας το μέτρο της
«stress» ή κάποια παραλλαγή αυτής.
Τα σημεία (δψ dij) παρουσιάζονται με το γράμμα Χ στο
Σχήμα 3.4. Σημειώστε ότι το πρώτο και δεύτερο σημείο (με ­
τρώντας από αριστερά προς δεξιά) ακολουθούν ένα μονοτο­
νικό σχηματισμό, ενώ το τρίτο όχι. Για να επιτευχθεί η μονο-
Πολvδιάστιπη Κλιμάκωση 135

τονικότητα, οι τιμές dij για το δεύτερο και τρίτο σημείο αντι­


καθίστανται από το μέσο όρο τους. Παρόμοια, οι τιμές για το
τέταρτο και πέμπτο σημείο αντικαθίστανται από το μέσο ό­
ρο τους. Αυτό οδηγεί στη μονοτονική καμπύλη παλινδρόμη­
σης που αποτελείται από μια σειρά συμπαγών γραμμών οι ο­
ποίες παρουσιάζονται στο σχήμα. Οι κάθετες διακεκομμένες
Α

γραμμές αντιπροσωπεύουν τις αποστάσεις dij - dij.

δij
Σχήμα 3.4. Παράδειγμα μονοτονικής παλινδρόμησης
Α νάλvση ιwλvμααβλητών δεδομiνωv για κοινωνικές επιστήμες

Μετρική Κλιμακοποίηση

Η κλασική κλιμακοποίηση θα μπορούσε να περιγραφεί ό­


πως η μετρική κλιμακοποίηση δεδομένου ότι σε αντίθεση με
τη μη μετρική κλιμακοποίηση, οι προσαρμοσμένες και
πραγματικές αποστάσεις εκφράζονται με την ίδια μετρική.
Εντούτοις, ο όρος μετρική κλιμακοποίηση φαίνεται συνή­
θως να διατηρείται για κάτι που μπορεί πιο ρεαλιστικά να
θεωρηθεί ότι σχετίζεται με τη μη μετρική (διατάξιμη) κλι­
μακοποίηση με έναν άλλο τρόπο. Στην κλασική κλιμακοποί­
ηση, υποθέσαμε ότι οι αποστάσεις ήταν ευκλείδειες . Στην
διατάξιμη κλιμακοποίηση, κάναμε τη χρήση μόνο της διά­
ταξης των δij. Αυτό ήταν ισοδύναμο με την υπόθεση που έ­
πρεπε να κάνουμε για ένα μονοτονικό μετασχηματισμό των
δij ώστε να τις μετατρέψουμε σε ευκλείδειες αποστάσεις. Στη
μετρική κλιμακοποίηση, υποθέτουμε ότι μπορούν να μετα ­
σχηματιστούν σε ευκλείδειες αποστάσεις με έναν άλλο πα­
ραμετρικό μετασχηματισμό. Σε μερικούς τομείς, μπορεί να
υπάρχουν καλοί λόγοι για να υποθέσουμε ότι ισχύουν τέτοι­
οι μετασχηματισμοί, αλλά δεν είμαστε ενήμεροι για την ύ ­
παρξη οποιοδήποτε πειστικών επιχειρημάτων για την εισα­
γωγή τους στις εφαρμογές των κοινωνικών επιστημών. Ε­
ντούτοις, αναφέρουμε δύο ειδικές περιπτώσεις, επειδή είναι
στενά συνδεδεμένες με τη κλασική κλιμακοποίηση. Η κλ~μα­
κοποίηση διαστήματος (interval scaling) αναφέρεται στην περί­
πτωση όπου υποτίθεται ότι ένας γραμμικός μετασχηματι­
σμός θα μετατρέψει τα δij σε ευκλείδειες αποστάσεις . Αντί
της προσαρμογής μιας μονοτονικής παλινδρόμησης στις α­
ποστάσεις ώστε να προσδιοριστούν οι ανομοιότητες, τώρα
θα προσαρμόσουμε μια γραμμική παλινδρόμηση. Οι ανο­
μοιότητες θα είναι τα σημεία στη γραμμή παλινδρόμησης,
αντί των σημείων στην καμπύλη μονοτονικής παλινδρόμη-
9ης. Ο τύπος της «stress» παραμένει ο ίδιος, εκτός από τίς
dij, οι οποίες τώρα υπολογίζονται από τη γραμμή παλινδρό­
μησης ελαχίστων τετραγώνων. Στην ειδική περίπτωση της
Πολυδιάιπατη Κλιμάκωση 137

κλιμακοποίησης λόγου (ratio scaling), όταν η παλινδρόμηση


διέρχεται από την αρχή των αξόνων, επιστρέφουμε στην πε­
ρίπτωση που αντιμετωπίσαμε στην κλασική κλιμακοποίηση,
επειδή πολλαπλασιάζοντας τα δij με μια σταθερά δεν αλλά­
ζει η μετρική -αν οι αποστάσεις ήταν ευκλείδειες πριν θα εί­
ναι και μετά και το αντίθετο. Η διαφορά εντοπίζεται στη συ­
νάρτηση, η οποία ελαχιστοποιείται. Ο τύπος «stress» του
Kruskal που εφαρμόστηκε σε αυτή την περίπτωση στοχεύει
να επιτύχει το πλησιέστερο βαθμό αναλογικότητας μεταξύ
των δεδομένων των δοσμένων αποστάσεων και αυτών που
προσαρμόστηκαν. Η κλασική κλιμακοποίηση στοχεύει στην
επίτευξη της πλησιέστερης προσαρμογής υπό όρους ελαχί­
στων τετραγώνων. Οι δύο μέθοδοι συχνά θα δίνουν παρό­
μοια αποτελέσματα. Θα χρησιμοποιήσουμε την κλιμακο­
ποίηση αναλογίας σε ένα από τα παρακάτω παραδείγματα.

3.4 Σχόλια για τις υπολογιστικές διαδικασίες

Λαμβάνοντας υπόψη τον αριθμό διαστάσεων k, στόχος


της MDS είναι να βρεθεί ένας σχηματισμός στις k διαστάσεις
έτσι ώστε το κριτήριο «stress» που χρησιμοποιείται να ελαχι­
στοποιείται.
Τα περισσότερα υπολογιστικά πακέτα σχετικά με τη MDS
ξεκινούν με έναν αρχικό σχηματισμό στο χώρο των k διαστά­
σεων και έπειτα επαναληπτικά βελτιώνουν το σχηματισμό,
μετακινώντας τα σημεία με μικρές αποστάσεις με τέτοιο τρό­
πο ώστε να μειωθεί ελαφρώς η «stress» σε κάθε επανάληψη.
Όταν οι περαιτέρω αλλαγές στο σχηματισμό δεν μειώνουν τη
«stress» (ή δεν είναι μεγαλύτερες από κάποιο προ-διευκρινι­
σμένο όριο ανοχής), η διαδικασία σταματά και ο σχηματι­
σμός είναι η λύση της MDS. Τυπικά, χρησιμοποιείται η μέ­
θοδος «steepest descent» (Kruskal και Wish (1994), σ. 321-2,
όλα αυτά είναι ανάλογα με έναν αλεξιπτωτιστή που προσπα­
θεί με κλειστά μάτια να βρει το χαμηλότερο σημείο σε μία έ­
κταση ακολουθώντας την κλίση ενός λόφου).
Ανάλυση nολvμrταβλητών δεδομένων για κοινωνικές επιστήμες

Δυστυχώς, είναι δυνατό να βρεθεί ένα τοπικό ελάχιστο πα­


ρά ένα ολικό ελάχιστο. Ένας τρόπος για να το ελέγξουμε εί­
ναι επαναλαμβάνοντας τη διαδικασία με διαφορετικούς σχη­
ματισμούς έναρξης να δούμε εάν θα βρούμε το ίδιο ελάχιστο,
χωρίς καμία απόλυτη εγγύηση ότι μπορεί να μην υπάρξει κά­
ποιο μικρότερο ελάχιστο κρυμμένο σε μια περιοχή του δια­
στήματος που δεν έχει ερευνηθεί.
Η επίτευξη μιας λύσης με τη MDS εξαρτάται από:

ί) την επιλογή του αρχικού σχηματισμού


ίί) το κριτήριο «stress» που χρησιμοποιείται.

Το πρόγραμμα PROXSCAL (διατίθεται στο SPSS ν.10)


π.χ., με τη βοήθεια του οποίου έχουν γίνει πολλοί από τους υ­
πολογισμούς σε αυτό το κεφάλαιο, φθάνει σε μια λύση ελα­
χιστοποιώντας τη συνάρτηση «stress» με την αντικατάσταση
των d1 από τα δij στον παρονομαστή της σχέσης «stress» του
Kruskal, τύπος 1. Υπάρχουν και άλλες παραλλαγές του μέ­
τρου «stress» που μετρούν τις διαφορές μεταξύ των αποστά­
σεων, καθώς και τις ανομοιότητες με ελαφρώς όμως διαφο­
ρετικές διαδικασίες.
Η ολοκληρωμένη εξέταση τέτοιων υπολογιστικών ζητη­
μάτων βρίσκεται έξω από το πεδίο του βιβλίου αυτού, αλλά ο
αναγνώστης πρέπει να γνωρίζει ότι διαφορετικά λογισμικά
μπορούν να δώσουν ελαφρώς διαφορετικές λύσεις. Εάν οι λύ­
σεις είναι πολύ διαφορετικές, αυτό που υποστηρίζουμε είναι
είτε ότι δεν υπάρχει καμία ισχυρή δομή στα δεδομένα ή ότι
τουλάχιστον μια από τις λύσεις είναι τοπικό παρά ολικό
ελάχιστο ή εκείνη η πλήρης σύγκλιση δεν έχει πραγματοποι­
ηθεί για μία ή και για τις δύο λύσεις.
Πολυδιάστατη Κλιμάκωση 139

3.5 Αξιολόγηση προσαρμογής σε σχέση


με την ε πιλογή του αριθμού των διαστάσεων

Υπάρχουν διάφοροι τρόποι για την αξιολόγηση της προ­


σαρμογής μιας λύσης της MDS. Μια μέθοδος περιλαμβά­
νει τη σύγκριση της «stress» που λαμβάνεται από τη λύση
με τις αντίστοιχες κατευθυντήριες γραμμές του Πίνακα
3.3. Αυτές αναπτύχθηκαν από τον Kruskal (1964) και είναι
βασισμένες στην εμπειρία παρά σε θεωρητικά κριτήρια.
Αυτά πρέπει πάντα να χρησιμοποιούνται ευέλικτα, με την
προσοχή μας όμως να βρίσκεται στην ερμηνεία της λύσης
στην οποία οδηγούν.

Π ίνακας 3.3 Κατευθυντήριες γραμμές προσαρμογής χρησιμοποιώ­


ντας τη «stress»

«Stress» (τύπος I του Kruskal) Προσαρμογή

0,20 Φτωχή

0,05 Καλή

0,00 Άριστη

Μια άλλη μέθοδος που μπορεί να χρησιμοποιηθεί για την


επιλογή του αριθμού των διαστάσεων είναι η εξέταση του
«scree» γραφήματος, όπου η «stress» σχεδιάζεται σε σχέση με
τον αριθμό των διαστάσεων. Καθώς ο αριθμός των διαστάσε­
ων αυξάνει, η «stress» μειώνεται, αλλά υπάρχει μια εξισορρό­
πηση μεταξύ της βελτίωσης της προσαρμογής και της μείω­
σης της ερμηνευτικότητας της λύσης. Στο γράφημα «scree»
ψάχνουμε έναν «αγκώνα» που είναι το σημείο στο οποίο η
αύξηση του αριθμού των διαστάσεων έχει μικρή περαιτέρω
επίδραση στη «stress». Πάλι, παρόλο που υπάρχει ένα ισχυ ­
ρό υποκειμενικό στοιχείο στη χρησιμοποίηση της μεθόδου
αυτής, η εμπειρία δείχνει ότι συχνά λειτουργεί καλά. Δείτε,
π.χ., το Σχήμα 3.5 που ακολουθεί.
Υπάρχουν επίσης διάφορα χρήσιμα διαγνωστικά γραφή-
Α νάλvση πολvμεταβλητώ'ΙΙ δεδομένων για κοινωνικές επιοτήμες

ματα. Στη περίπτωση της τακτικής κλιμακοποίησης, τα~γρα­


φήματα περιλαμβάνουν όλα τα ζευγάρια των δij, diJ και dij, τα
οποία μπορούν να εξεταστούν για να αξιολογήσουν την προ­
σαρμογή μιας λύσης της MDS.

i) Γράφημα των diJ (η απόσταση των εσωτερικών σημείων


του σχηματισμού) ως προς τα /1,ij (οι προσαρτημένες τι­
μές των dij που υπολογίζονται από τη μονοτονική παλιν­
δρόμηση). Εάν η λύση της MDS είναι καλά προσαρμο­
σμένη, αυτό το γράφημα θα πρέπει να παρουσιάζει μια
γραμμική σχέση με κλίση 45 μοιρών και μόνο ένα μι­
κρό ποσό διασποράς γύρω από τη γραμμή. Εάν ήταν α­
παραίτητη μια μικρή ομαλοποίηση των dij για την πα­
ραγωγή των dij, θα έπρεπε μετά να είχαν την ίδια διάτα­
ξη βαθμού και περίπου την ίδια τιμή, δεδομένου ότι με ­
τριούνται στην ίδια κλίμακα. Δείτε, π.χ., το Σχήμα 3.7.
ii) Γράφημα των diJ (η απόσταση των εσωτερικών σημείων
του σχηματισμού) ως προς τα δiJ (η παρατηρούμενη α­
πόσταση ή η παρατήρηση) . Εάν η λύση έχει μια καλή
προσαρμογή , τα dij και δij θα πρέπει να έχουν περίπου
την ίδια διάταξη βαθμού και το γράφημα αυτό θα πρέ­
πει να παρουσιάζει μονοτονική καμπύλη (είτε αυξανό­
μενη είτε ελαττωμένη). Δείτε, π.χ., το Σχήμα 3.8.
iii) Γράφημα των dij (η ανομοιότητα ή η προσαρτημένη τι­
μή των εσωτερικών αποστάσεων dij) ως προς τα δij (η
παρατηρούμενη απόσταση ή η παρατήρηση). Τα dijεί­
ναι οι ομαλοποιημένες εκδοχές των dij που κατασκευ­
άζονται έτσι ώστε να έχουν την ίδια διάταξη βαθμού ό ­
πως τα δij. Εάν ένα μεγάλο ποσό ομαλοποίησης απαι­
τήθηκε για να επιτευχθεί μια μονοτονική καμπύλη
(δηλαδή η λύση δεν είχε ικανοποιητική προσαρμογή),
αυτό το γράφημα θα παρουσίαζε ένα μεγάλο αριθμό
οριζόντιων βημάτων στα οποία πραγματοποιήθηκε ο­
μαλοποίηση . Δείτε, π.χ., το Σχήμα 3.9.
Για τη μετρική κλιμακοποίηση, τα ~ij κατασκευάζονται ώ-
Πολυδιάιπιπη Κλψάκωοη Ι4Ι

στε να είναι ανάλογα ως προς τα δij, επομένως, τα γραφήμα­


τα που περιλαμβάνουν τα δij είναι περιττά, μετατρέποντας έ­
τσι σε χρqσιμο για εξέταση μόνο το γράφημα των dij σε σχέ­
ση με τα 'diJ.

3.6 .,Ενα παράδειγμα εξάσκησης: διαστάσεις


των :χρωμάτων της όρασης

Επεξηγούμε τώρα αυτές τις ιδέες και μεθόδους σε ένα πα­


ράδειγμα που αναλύθηκε αρχικά με άλλα μέσα πριν από την
ανάπτυξη των μεθόδων πολυδιάστατης κλιμακοποίησης.
Σε ένα πείραμα που έχει διεξαχθεί, κλήθηκαν κάποια ά­
τομα να δουν μια οθόνη που είχε δύο κυκλικά αδιαφανή πα­
ράθυρα γυαλιού. Αυτά τα παράθυρα φωτίστηκαν από δύο
προβολείς πίσω από την οθόνη. Μπορούσαν να παρεμβλη­
θούν διαφορετικά φίλτρα χρώματος στους προβολείς. Χρη­
σιμοποιήθηκαν δεκατέσσερα φίλτρα χρώματος, διαβιβάζο­
ντας το φως μήκους 434 mμ κυμάτων σε 674 mμ. Κάθε ερέ­
θισμα συνδυάστηκε με άλλο σε τυχαία σειρά. Έπειτα, οι
συμμετέχοντες στο πείραμα, κλήθηκαν να εκτιμήσουν το
βαθμό της «ποιοτικής ομοιότητας» μεταξύ κάθε ζεύγους φίλ­
τρων χρώματος σε μια κλίμακα πέντε σημείων . Οι περαιτέ­
ρω λεπτομέρειες και η αρχική ανάλυση παρουσιάζονται στον
Ekman (1954). Ο πίνακας ομοιοτήτων που κατασκευάστηκε
από τον Ekman δίνετα ι στον Πίνακα 3.4. Πραγματοποιήθη­
κε μια διατάξιμη MDS σε αυτές τις ομοιότητε ς .
ΚΕΦΆΛΑΙΟ 4ο

Ανάλυση Αντιστοιχιών

4.1. Στόχοι της Ανάλυσης Αντιστοιχιών

Η ανάλυση αντιστοιχιών (Correspondense Analysis - CORA)


είναι μία διερευνητική τεχνική για την ανάλυση πινάκων συ­
χνότητας πολλαπλής εισόδου, που σημαίνει κατάταξη δύο ή
περισσοτέρων κατηγορικών μεταβλητών. Θα εστιάσουμε
στην ανάλυση των πινάκων διπλής εισόδου, αλλά επειδή και
η ανάλυση πινάκων πολλαπλής εισόδου πραγματοποιείται
με το ίδιο σκεπτικό, θα σχολιαστεί περιληπτικά στο κεφάλαι­
ο αυτό στη συνέχεια. Όπως στη MDS, η ανάλυση αντιστοι­
χιών στοχεύει στη μετατροπή ενός πίνακα αριθμών σε γρά ­
φημα σημείων σε ένα μικρό αριθμό διαστάσεων, συνήθως
δύο. Ο όρος Ανάλυση Αντιστοιχιών προέρχεται από το γαλλικό
όρο Analyse Factorielle de Correspondences, ο οποίος χρησιμο­
ποιείται από τον Benzecri και άλλους οι οποίοι ανέπτυξαν
την τεχνική. Ωστόσο, η βασική ιδέα απαντάται πολύ νωρίτε­
ρα στις προσπάθειες κλιμακοποίησης των κατηγοριών των
πινάκων συνάφειας .
Ο συνήθης τρόπος για να ξεκινήσουμε την ανάλυση ενός
πίνακα διπλής εισόδου θα ήταν να εφαρμόσουμε ένα Χ2 -
τεστ ανεξαρτησίας μεταξύ των μεταβλητών των γραμμών και
των στηλών. Εάν βρεθεί μία σημαντική συνάφεια, η φύση αυ­
τής θα μπορούσε να διερευνηθεί με την εξέταση των ποσο­
στών των γραμμών και/ή των στηλών. Ωστόσο, όταν ο αριθ­
μός των κατηγοριών είναι μεγάλος, ίσως είναι εκατοντάδες,
είναι δύσκολη η σύγκριση μεταξύ των ποσοστών των γραμ­
μών (στηλών) έναντι των στηλών (γραμμών). Στόχος της
168 Ανάλυση πολυμεταβλητων δεδομένων για κοινωνικές επισιήμες

CORA είναι να παρουσιάσει τα αρχικά δεδομένα σε ένα χώ­


ρο λίγων διαστάσεων, ώστε να είναι πιο εύκολο να αναγνωρι­
στούν τα κύρια χαρακτηριστικά των δεδομένων. Η CORA
μπορεί να χρησιμοποιηθεί στη διερεύνηση ερωτήσεων όπως
οι παρακάτω:
1) Υπάρχουν κατηγορίες γραμμών που να έχουν παρόμοια
κατανομή στις κατηγορίες στηλών;
2) Είναι καμία από τις κατηγορίες στηλών παρόμοιες όσον α­
φορά στις κατανομές τους στις κατηγορίες γραμμών;
3) Είναι οι κατηγορίες των γραμμών/στηλών σε σειρά σύμ­
φωνα με τις κατανομές τους στις κατηγορίες των στη­
λών/γραμμών; Και αν ναι, απέχουν οι κατηγορίες απόλυ­
τα ισομερώς;
4) Οι ερωτήσεις i) και ii) ασχολούνται με την μεταβλητότη­
τα των κατανομών γραμμών/στηλών στις κατηγορίες στη­
λών/γραμμών. Περισσότερα ερωτήματα προκύπτουν
σχετικά με το βαθμό με τον οποίο ένα δεδομένο κελί από
μία κατηγορία γραμμής ή στήλης συμμετέχει στην όλη
συνάφεια.

Μορφές εισαγωγής δεδομένων

Οι πίνακες συχνότητας μπορούν να προκύψουν με ποικίλους


τρόπους. Συνήθως, οι μεταβλητές των γραμμών και των στη­
λών έχουν αμοιβαία αποκλειόμενες κατηγορίες, όπου στην
περίπτωση αυτή ο πίνακας ονομάζεται πίνακας συνάφειας
(contingency table). Αυτές οι μεταβλητές μπορούν να είναι ονο­
μαστικές ή διατακτικές. Πραγματικά, όπως επισημάνθηκε
παραπάνω, η CORA μπορεί να χρησιμοποιηθεί στη διερεύ­
νηση για το αν μια μεταβλητή, η οποία υποτίθεται ότι είναι
διατάξιμη, μπορεί να χρησιμοποιηθεί ως τέτοια. Ο Πίνακας
4.1 δείχνει μία σταυρωτή διάταξη (cross-tabulation) του κόμ­
ματος που ψηφίστηκε στις βρετανικές βουλευτικές εκλογές
το 1992, με την αιτία για την οποία ψηφίστηκε το κόμμα ε­
πιλογής (μεταξύ αυτών που ψήφισαν). Τα δεδομένα αντλή-
Ανάλυση ανrιοτοιχιώv

θηκαν από το British General Election Study (1992) (Heath,


Jowell, Curtice, Brand και Mitchell 1993). Και οι δύο μετα­
βλητές είναι ονομαστικές και έχουν αμοιβαίως αποκλειόμε­
νες κατηγορίες.

Πίνακας 4.1 Πρόθεση ψήφου, με αιτιολόγηση, British General


Election Study 1992
Κόμματα

Αιτία Συντηρητικό Εργατικό Ελεύθεροι Δημοκράτες Λοιπά Δεν απαντώ Σύνολο

Το ψηφίζω

πάντα 244 405 48 39 18 754


Είναι

το καλύτερο

κόμμα 933 542 305 127 46 1.953


Το κόμμα μου

δεν είχε

πιθανότητα 59 74 87 31 5 256
Σύνολο 1.236 1.021 440 197 69 2.963

Οι κατηγορίες των μεταβλητών των γραμμών και/ή των


στηλών δεν χρειάζεται να είναι αμοιβαία αποκλειόμενες. Για
παράδειγμα, τα δεδομένα στον Πίνακα 4.2 αντλήθηκαν από
μία έρευνα που έγινε στη Νορβηγία σχετικά με τις δραστη­
ριότητες στον ελεύθερο χρόνο (Clausen 1998). Οι ερωτώμε­
νοι ρωτήθηκαν εάν έκαναν κάποια από τις δέκα δραστηριό­
τητες μέσα στο προηγούμενο έτος. Εφόσον κάθε ερωτώμενος
μπορεί να έκανε περισσότερες από μία δραστηριότητες, οι
κατηγορίες δεν είναι αμοιβαίως αποκλειόμενες. Άλλα παρα­
δείγματα τέτοιας μορφής πινάκων συχνότητας, απαντώνται
σε έρευνες αγοράς όπου ένας αριθμός επώνυμων προϊόντων
αναλογεί σε μία σειρά χαρακτηριστικών.
170 Α νάλυση πολvμεωβλψων δεδομένων για κοινωνικές επισrήμες

Πίνακας 4.2 Δραστηριότητες στον ελεύθερο χρόνο ανά επάγγελμα,


Survey of Level of Living 1995, Νοpβηγiα

Επάγγε μα

Δeαστ9eιότ9ταΧειeωvακτικ1 ΛίyοΠ . Αeκετά Π. Αyeότ9ς Μαθ9τ1ς Συνταξιούχος Σύνολο

Αθλητισμός 301 497 208 50 254 187 1.497


Κινηματογράφος 261 550 250 27 339 157 1.584
Χορός 361 534 204 59 324 216 1.698
Καφέ- Εστιατόριο 463 766 334 72 350 601 2.586
Θέατρο 89 350 195 12 143 167 956
Συναυλία κλασικής

μουσικής 23 182 124 10 60 110 509


Συναυλία ποπ 117 298 145 11 184 56 811
Εκθέσεις τέχνης 104 379 219 21 152 213 1.088
Βιβλιοθήκη 130 352 153 17 272 264 1.188
Εκκλησία 168 370 187 51 162 424 1.362
ΣdvoXo 2.01'7 4.27S 2.ίΗ9 330 2.240 2.395 13.2'79
*Π: πνευματική εργασία , μη χειρωνακτική

4.2. Διεκπεραιώνοντας μία ανάλυση αντιστοιχιών:


ένα απλό αριθμητικό παράδειγμα.

Για να δείξουμε πώς εφαρμόζεται η CORA, λαμβάνεται υπό­


ψη ένας απλός πίνακας 3χ3 . Όπως συμβαίνει συνήθως για
την επεξήγηση των τεχνικών μιας πολυμεταβλητής ανάλυ­
σης, είναι πιο εύκολη η σύλληψη της ιδέας, εάν αυτή απεικο­
νιστεί με ένα πολύ απλό παράδειγμα. Αυτό θα κάνουμε και ε­
δώ , αλλά θα πρέπει να θυμόμαστε ότι όλη η ισχύς της τεχνι­
κής μπορεί να εκτιμηθεί μόνο σε πολύ μεγαλύτερους πίνα­
κες. Σε αυτή τη συγκεκριμένη περίπτωση, θα πρέπει να ανα­
μένουμε ότι η μέθοδος CORA θα μας φανερώσει λίγο περισ­
σότερα από όσα μπορούμε να ανακαλύψουμε με μία προσε­
κτική παρατήρηση του πίνακα.
Στον Πίνακα 4.3 δίνεται μία σταυρωτή κατηγοριοποίηση
της στάσης απέναντι στις εκτρώσεις στις ΗΠΑ και των ετών
Α νάλvση αντιστοιχιών Ι7Ι

εκπαίδευσης. Τα δεδομένα αντλήθηκαν από την General


Social Surveys στα έτη 1972-1974 και παρουσιάζονται από τον
Haberman (1978), σ. 264.

Πίνακας 4.3 Στάση απέναντι στην έκτρωση κατά επίπεδο μόρφωσης


στις ΗΠΑ, 1972-74: κελιά με συχνότητες
Στάση/ Συμπεριφορά

Θετικ9 Ενδιά!!εσ!] Αί!νψικ9 Σύνολο

Έτη εκπαίδευσης ~ 8 101 120 320 541


9-12 599 341 756 1.696
~ 13 475 161 308 944
Σύνολο 1.175 622 1.384 3.181

Το κριτήριο Χ για τον έλεγχο ανεξαρτησίας μεταξύ των


2

γραμμών και των στηλών είναι 157,58 με 4 βαθμούς ελευθε­


ρίας, το οποίο δείχνει ότι στις ΗΠΑ υπάρχει σημαντική συ­
νάφεια μεταξύ της μόρφωσης και της θέσης απέναντι στην έ­
κτρωση .

«Προφίλ γραμμών και μάζες γραμμών

Για να διερευνήσουμε περισσότερο αυτή τη συνάφεια, μπο­


ρούμε να δούμε την κατανομή των απαντήσεων που δόθηκαν
στην μεταβλητή για την στάση απέναντι στην έκτρωση σε κά­
θε κατηγορία μόρφωσης, αυτές είναι οι αναλογίες των γραμ­
μών. Το σύνολο των αναλογιών των γραμμών ονομάζονται
προφίλ γραμμών . Τα «προφίλ» των γραμμών των δεδομένων
του Πίνακα 4 .3 απεικονίζονται σrον Πίνακα 4.4. Επίσης φαί­
νονται και οι μάζε ς των γραμμών (συνολική αναλογία σε κά­
θε γραμμή) και το κεντρική ή μέσο «προφίλ» γραμμής (συνο­
λική αναλογία σε κάθε στήλη). Θα μπορούσαμε επίσης να ε­
ξετάσουμε την κατανομή σε σχέση με τις κατηγορίες μόρφω­
σης για κάθε κατηγορία στάσης στην έκτρωση. Για να το
πραγματοποιήσουμε αυτό, θα υπολογίσουμε τα «προφίλ»
στηλών, τις μάζες των στηλών και το κεντρικό «προφίλ» της
Ανάλυση nολυμααβλητων δεδομέvω,ι για κοινωνικές εnισrήμες

στήλης. Για την ώρα, θα ασχοληθούμε μόνο με τα «προφίλ»


των γραμμών αλλά, αργότερα, θα εξετάσουμε και το ρόλο
των «προφίλ» των στηλών.
Είναι ξεκάθαρο ότι υπάρχουν έντονες διαφορές στα
«προφίλ» των τριών γραμμών. Η αναλογία θετικής στάσης
τείνει να αυ ξάνει καθώς μετακινούμαστε προς τα κάτω στον
πίνακα . Αυτό σημαίνει ότι η στάση τείνει να γίνεται περισσό­
τερο θετική όσο αυξάνονται τα έτη μόρφωσης. Ωστόσο, ση­
μειώστε ότι είμαστε σε θέση να περιγράψουμε το μοντέλο
μόνο με αυτούς τους απλούς όρους γιατί οι κατηγορίες είναι
διατάξιμες. Γενικά οι κατηγορίες δεν θα είναι διατάξιμες
και μέρος του στόχου αυτή της ανάλυσης θα είναι να δούμε
εάν υπάρχει μία διάταξη, η οποία να βοηθά στο να έχει νόη­
μα ο πίνακας. Για δικούς μας άμεσους λόγους, δεν θα κάνου ­
με χρήση της πληροφορίας που προκύπτει από την διάταξη .

Πίνακας 4.4 Στάση για την έκτρωση σε σχέση με τη μόρφωση στις


ΗΠΑ, 1972-74: «προφίλ» γραμμής

Στάση

Θετικ9 Ενδιά~εσ~ Αeν~τικ9 Μάζα Γeα~~9ς


Μόρφωση ~ 8 0.187 0.222 0.591 0.170
9-12 0.353 0.201 0.446 0.533
~ 13 0.503 0. 171 0.326 0.297
Κεντρικό «προφίλ»γραμμής 0.369 0.196 0.435

Για έναν πίνακα με τρεις στήλες, τα « προφίλ» της γραμ­


μής μπορούν να απεικονιστούν ως σημεία σε ένα δισδιάστα ­
το χώρο, γιατί οι αναλογίες πρέπει να προστίθενται στο 1.
Στο Σχήμα 4 .1, απεικονίζονται με σημεία μέσα σε ένα ισό­
πλευρο τρίγωνο, όπου το κέντρο του τριγώνου αντιστοιχεί σε
ίσες αναλογίες απαντήσεων σε κάθε κατηγορία και ένα ση­
μείο που είναι πιο κοντά σε μία κορυφή (μία γωνία του τρι­
γώνου) αντιστοιχεί σε μία υψηλότερη αναλογία σε αυτή την
κατηγορία.
Ανάλυση αντιστοι;ι:ιών 173

Mixed attitude
(0,1,0)

8 years
or less 13 years
\ ormore
• •
,/

(0,0,1) (1,0,0)
Negative attitude Positive attitude

Σχήμα 4.1 Τα δεδομένα των «προφίλ» γραμμής για τη μόρφωση στις


ΗΠΑ και η στάση για την έκτρωση. Ο ανοιχ-τός κύκλος αναπαριστά το
κεντροειδή «προφίλ» γραμμής και οι τελείες αναπαριστούν το «προφίλ»
της γραμμής για τις τρεις ομάδες μόρφωσης.

Στο Σχήμα 4.1, η μέση τιμή «προφίλ» γραμμής δείχνει


σχεδόν ίσες αναλογίες θετικών και αρνητικών απαντήσεων
με μία χαμηλή αναλογία μικτών απαντήσεων . Τα «προφίλ»
για την ομάδα με την ανώτερη μόρφωση (~13 έτη) έχουν μία
υψηλότερη αναλογία θετικών απαντήσεων, ενώ το «προφίλ»
της ομάδας με τη χαμηλότερη μόρφωση (~8 έτη) έχει υψηλό­
τερη αναλογία αρνητικών απαντήσεων (και μία ελαφρώς υ­
ψηλότερη αναλογία ενδιάμεσων απαντήσεων). Τα «προφίλ»
για την ομάδα 9-12 έτη είναι πρακτικά ίδια όπως και τα μέ­
σα «προφίλ» της γραμμής.
Εάν δεν υπήρχε συνάφεια ανάμεσα στη στάση για την έ­
κτρωση και το επίπεδο της μόρφωσης, τα «προφίλ» της
γραμμής θα ήταν παρόμοια και οι τελείες στο Σχήμα 4.1 θα
συνέπιπταν με το μέσο «προφίλ» της γραμμής (απεικονίζε-
174 Ανάλυση πολυμεταβλητων δεδομένων για κοινωνικές επιστήμες

ται από τον ανοιχτό κύκλο). Επομένως, η απόσταση που τα


χωρίζει και το σχήμα τους μας λέει κάτι για τη φύση της συ­
νάφειας. Ως πρώτο βήμα διερεύνησης αυτού, θα μπορούσα­
με να υπολογίσουμε τις αποστάσεις ανάμεσα σε ζεύγη των
προφίλ των γραμμών και ανάμεσα σε κάθε προφίλ γραμμής
και στο κεντροειδές. Μία δυνατότητα που υπάρχει είναι να
χρησιμοποιήσουμε την ευκλείδεια απόσταση, η οποία ισού­
ται με την τετραγωνική ρίζα του αθροίσματος των τετραγώ­
νων των διαφορών μεταξύ των τιμών του «προφίλ». Για πα­
ράδειγμα, η ευκλείδεια απόσταση ανάμεσα στα «προφίλ»
της γραμμής για:-:; 8 και 9-12 έτη μόρφωσης είναι:

✓(0.187-0.353)2 + (0.222-0.201)2 + (0.59 1-0.446)2 = 0.221

Ωστόσο, στη μέθοδο CORA, κάθε διάσταση σταθμίζεται


αντίστροφα με την αντίστοιχη συντεταγμένη της μέσης τιμής
του «προφίλ» της γραμμής έτσι ώστε οι κατηγορίες της στή­
λης με υψηλότερη σχετική συχνότητα να μην κυριαρχούν έ­
ναντι αυτών με χαμηλότερη σχετική συχνότητα. Έτσι η σταθ­
μισμένη ευκλείδεια απόσταση ανάμεσα στα «προφίλ» της
γραμμής για :,;8 και 9-12 έτη μόρφωσης είναι

2
(0.187-0.353) (0.222-0.201)2 (0.591-0.446)2
~ - - - - ~ + - - - - - - + - - - - - - = 0.354
0.369 0.196 0.435
Αυτό το μέτρο απόστασης συχνά αναφέρεται ως Χ από­
2
-

σταση, γιατί σταθμίζοντας την τετραγωνική διαφορά μεταξύ


δύο τιμών των «προφίλ» με τη μέση τιμή του «προφίλ» είναι
ανάλογο με το να σταθμίζεις την τετραγωνική διαφορά μετα­
ξύ παρατηρούμενων και αναμενόμενων τιμών με την αναμε­
νόμενη τιμή. Όλο το σύνολο των τετραγωνισμένων Χ2 - απο­
στάσεων δίνεται στον πίνακα 4.5. Στην τελευταία γραμμή του
Πίνακα 4.5 είναι οι τετραγωνισμένες Χ2 - αποστάσεις ανάμε­
σα στη γραμμή i και της μέσης τιμής του «προφίλ» της γραμ­
μής ή centroid, τις οποίες δηλώνουμε με d~.
Ανάλυση αντιστοιχ,ών Ι75

Πίνακας Τετραγωνισμένες Χ
2
4.5 - αποστάσεις ανάμεσα στα
«προφίλ» γραμμής κα~ ανάμεσα στα «προφίλ» γραμμής κα~ το κεντpο­
εzδές -δεδομένα γ~α τη στάση απέναντι στην έκτρωση με βάση τη μόρ­
φωση, ΗΠΑ, 1972-74
Γραμμή

2 3
1 ο

2 0,125 ο

3 0,445 0,099 ο

Κεvτροειδής 0,149 0,001 0,079

Σε αυτό το σημείο, έχουμε μία περίπτωση που θυμίζει την


ανάλυση κατά συστάδες και τη MDS, όπου το πρώτο βήμα ή­
ταν να υπολογίσουμε έναν πίνακα απόστασης . Πράγματι, θα
μπορούσαμε επίσης να προχωρήσουμε στην εκτέλεση κάποι­
ου είδους ανάλυσης σε πίνακες απόστασης υπολογισμένους
από πίνακες συχνότητας. Μία ανάλυση κατά συστάδες, για
παράδειγμα, θα μπορούσε να αναγνωρίσει ομάδες γραμμών,
οι οποίες έχουν πολύ όμοια «προφίλ» και αυτό μπορεί να υ­
πονοεί, υπό μία έννοια, ότι αυτές οι κατηγορίες θα πρέπει να
είναι πολύ κοντά. Η MDS θα παρείχε ένα γράφημα σημείων
που θα αναπαριστούσε τις γραμμές όπου πάλι θα ήταν πιθα­
νό να φανεί από το σχήμα των σημείων κάτι σχετικό με τη
συνάφεια. Ωστόσο, στην CORA, η προσοχή μας εστιάζεται
πιο συγκεκριμένα στη φύση της συνάφειας και της συμμετο­
χής, την οποία έχουν οι διάφορες κατηγορίες γραμμής και
στήλης σ' αυτήν την συνάφεια.

Inertίa (Αδράνεια)

Στη μέθοδο CORA, ο όρος αδράνεια χρησιμοποιείται για


να περιγράψει το συντελεστή διασποράς ή διακύμανσης των
«προφίλ» της γραμμής (ή στήλης) σχετικά με το κεντροειδές
(centroid). Η συνολική αδράνεια ορίζεται ως:
176 Ανάλυση πολυμεταβλητων δεδομένων για κοινωνικές επιστήμες

Σ(massfor row ί )χ d;
2

i=I

όπου Ι είναι ο αριθμός των γραμμών του πίνακα. Ο όρος α­


δράνεια, ο οποίος είναι περισσότερο οικείος ως βαθμοi ελευθε­
piας, προέρχεται από τη μηχανική και η αναλογία σχετικά με
το που βασίζεται η χρήση του, προκύπτει από τον τύπο της
αδράνειας, ο οποίος ισούται με τον πολλαπλασιασμό της μά­
ζας με το τετράγωνο μίας απόστασης.
Από τους Πίνακες 4.4 και 4.5, η συνολική αδράνεια για τα
δεδομένα της έκτρωσης στις ΗΠΑ είναι:

(Ο, 170 χ Ο, 149) + (0,533 χ 0,001) + (0,297 χ 0,079) = 0,050.

Μπορεί να αποδειχτεί ότι η συνολική αδράνεια σχετίζεται


με το κριτήριο Χ2 διαιρούμενο με το γενικό σύνολο n που εί­
ναι:

χ2
Inertίa =--
n

Αυτό το αποτέλεσμα προσφέρει έναν ενδιαφέροντα εναλ­


λακτικό τρόπο θεώρησης του κριτηρίου Χ2. Τώρα εμφανίζε­
ται ως μία τιμή της μεταβλητότητας των «προφίλ» της γραμ­
μής. Εάν ανταλλάξουμε τις γραμμές και τις στήλες του πίνα­
κα, η τιμή του Χ2 θα παραμείνει η ίδια, με αποτέλεσμα η τι­
μή του να μπορεί επίσης να απεικονιστεί ως ένα μέτρο της
μεταβλητότητας των «προφίλ» της στήλης.
Η αδράνεια μετρά τη μεταβλητότητα ανάμεσα στις γραμ­
μές, οι οποίες είναι πολυδιάστατα αντικείμενα και τα οποία,
όπως είδαμε παραπάνω, μπορούν έτσι να απεικονιστούν ως
σημεία μέσα στο χώρο. Παρόμοια μετρά τη μεταβλητότητα
ανάμεσα στις στήλες.
Η CORA βασίζεται στο γεγονός ότι η αδράνεια μπορεί να
αναλυθεί με άλλο τρόπο, με κάθε κομμάτι να μετρά τη μετα-
Ανάλυση αντιστοιχιών 177

βλητότητα σε μία μόνο διάσταση. Αυτή η ανάλυση ισοδυνα­


μεί με την ανάλυση του κριτηρίου Χ2 εξαιτίας της σχέσης α­
νάμεσα στην αδράνεια και του κριτηρίου αυτού. Εάν προκύ­
ψει ότι η περισσότερη μεταβλητότητα συμβαίνει σε ένα μι­
κρό αριθμό διαστάσεων, σε δύο για παράδειγμα, είναι πιθα­
νό να μπορέσουμε να φανταστούμε τη μεταβλητότητα και έ­
τσι ίσως να την εξηγήσουμε με τρόπο που να είναι περισσό­
τερο κατανοητός.

Μία δισδιάστατη αναπαράσταση

Στο παράδειγμα για τη μόρφωση στις ΗΠΑ και τη στάση για


την έκτρωση, τα «προφίλ» της γραμμής μπορούν να απεικο­
νιστούν σε έναν τρισδιάστατο χώρο γιατί υπάρχουν τρεις
γραμμές και τρεις στήλες. Στην πραγματικότητα μπορούν να
απεικονιστούν τέλεια σε δύο διαστάσεις, όπως δείχνει το
Σχήμα 4.1, γιατί κάθε στοιχείο σε μία γραμμή, ας πούμε,
μπορεί να προκύψει με την αφαίρεση των άλλων δύο στοιχεί­
ων από το σύνολο της γραμμής. Ωστόσο, η CORA είναι πε­
ρισσότερο χρήσιμη σε πολύ μεγαλύτερους πίνακες, όπου ο α ­
ριθμός των γραμμών και των στηλών είναι πάνω από τρεις .
Σε τέτοιες περιπτώσεις, είναι προτιμότερο να μειώσουμε τη
διάσταση των «προφίλ» της γραμμής, έτσι ώστε να μπορούν
να σχεδιαστούν σε δισδιάστατο ή το πολύ σε τρισδιάστατο
χώρο. Το θέμα είναι πώς θα βρούμε τις συντεταγμένες των
σημείων που θα αναπαριστούν τα « προφίλ» της γραμμής σε
δύο διαστάσεις και μετά πώς θα εκτιμήσουμε πόσο καλή α­
ναπαράσταση των αρχικών δεδομένων παρέχουν αυτά . Με
γεωμετρικούς όρους, ο σκοπός της CORA είναι να βρει ένα
επίπεδο, το οποίο θα είναι όσο το δυνατόν πιο κοντά σε όλα
τα σημεία και το οποίο επίσης θα αναπαράγει, όσο το δυνα­
τόν ακριβέστερα, τις Χ2 αποστάσεις ανάμεσά τους . Τα «προ­
φίλ» των γραμμών προβάλλονται πάνω σε αυτό το επίπεδο
για να εξευρεθούν έτσι τα σημεία, τα οποία αναπαριστούν τα
«προφίλ» σε δύο διαστάσεις.
Ανάλυση nολυμετ:αβλητων δεδομένuJV για κοινωνικές επιστήμες

Πριν περιγράψουμε πώς αυτό μπορεί να επιτευχθεί, θα


δούμε πρώτα την ανάλυση δισδιάστατων γραφημάτων χρη­
σιμοποιώντας τα «προφίλ» των γραμμών για τα δεδομένα
σχετικά με τη μόρφωση στις ΗΠΑ και τη στάση απέναντι
στην έκτρωση όπως φαίνονται στο Σχήμα 4.2.

Dlmension 2
1

<=
...
β }'ilBfS ...
>=13 ears

-1 ...
9· 12 years
Dimension 1

Σχήμα 4.2 «Προφίλ» γραμμής σε δύο διαστάσεις για τη στάση


απέναντι στην έκτρωση ανάλογα με τη μόρφωση, ΗΠΑ, 1972-74

Στο Σχήμα 4.2 βλέπουμε ότι η μεγαλύτερη μεταβλητότη­


τα ανάμεσα στις κατηγορίες των γραμμών συμβαίνει στη διά­
σταση 1 και όπως ήταν αναμενόμενο, αυτή η διάσταση αντι­
στοιχεί στα «έτη μόρφωσης». Έτσι, οι κατηγορίες των γραμ­
μών δίνουν μια μετρική με τιμές -0,82, -0,07 και 0,60 οι οποί­
ες απέχουν κατά προσέγγιση ίσα διαστήματα. Ωστόσο, υ­
πάρχει μία δεύτερη διάσταση που χωρίζει τη μεσαία ομάδα,
9-12 έτη, από τις ακραίες. Η μεταβλητότητα σε αυτή τη διά­
σταση είναι πολύ μικρότερη.
Α νάλυοη αντιστοιχιών 179

Εάν αυτή η ανάλυση γίνει σε μεγαλύτερους πίνακες, χρει­


αζόμαστε μια διαδικασία που να πραγματοποιεί την
διάσπαση με έναν τρόπο, ο οποίος θα παράγει τις διαδοχικές
διαστάσεις αλγεβρικά. Τώρα θα σκιαγραφήσουμε με συντο­
μία τον τρόπο με τον οποίο μπορεί να γίνει αυτό , χωρίς να υ ­
πεισέλθουμε σε μαθηματικές λεπτομέρειες, οι οποίες βασί­
ζονται σε αυτό που είναι γνωστό ως διάσπαση ιδιάζουσων
τιμών (singular value decornposition of a rnatrix) .

4.3 Πραγματοποιώντας μία ανάλυση αντιστοιχιών:


η γενική μέθοδος

Κατάλοιπα του Pearson

Στην ανάλυση αντιστοιχιών, το κριτήριο Χ2 διαμερίζεται


με τον τρόπο που περιγράψαμε παραπάνω . Από τα μαθη­
ματικά της διάσπασης (decornposition) ενός πίνακα απο ­
δεικνύεται ότι δεν είναι περισσότερο βολικό να δουλεύουμε
με τα «προφίλ», αλλά με σχετικά κοντινές σε αυτά ποσότη ­
τες, τις οποίες θα ονομάσουμε κατάλοιπα του Pearson
(Pearson residuals). Αρχίζουμε με έναν/ χ] πίνακα παρατη­
ρούμενων συχνοτήτων, όπου το/ και το] είναι ο αριθμός
των γραμμών και των στηλών αντίστοιχα και τον οποίο με­
τατρέπουμε σε έναν πίνακα με κατάλοιπα του Pearson. Αυ ­
τά τα κατάλοιπα του Pearson είναι οι αποκλίσεις ανάμεσα
στις παρατηρούμενες συχνότητες και σε αυτές που αναμέ­
νονται σύμφωνα με το μοντέλο της ανεξαρτησίας. Συμβο­
λίζουμε την παρατηρούμενη συχνότητα για τη γραμμή i
και τη στήληj του πίνακα με OiJ' το σύνολο για τη γραμμή i
με Ο;+ και το σύνολο για τη στήληj με Ο +j- Συμβολίζουμε
τον πίνακα των καταλοίπων του Pearson με C. Τα στοιχεία
του C είναι:
180 Ανάλvοη nολvμεταβληwν δεδομiνωv για κοινωνικές εnιιπi[μες

όπου

(ί= 1,... ,I;j= 1,...,J)

(σύμφωνα με την υπόθεση της ανεξαρτησίας, κάθε στοιχείο


της C ακολουθεί προσεγγιστικά σχεδόν την ίδια κατανομή με
μέση τιμή μηδέν και διακύμανση μονάδα και έτσι τα κατά­
λοιπα του Pearson είναι, κατά μία έννοια, τοποθετημένα σε
μία όμοια θέση). Εάν τα «προφίλ» των γραμμών είναι ίδια, τα
στοιχεία κάθε γραμμής της C θα είναι μηδενικά . Επομένως,
το μέγεθος και ο σχηματισμός των αποκλίσεων από το μηδέν,
μας αποκαλύπτουν τη φύ ση της συνάφ ειας. Ο πίνακας C, για
τα δεδομένα που αφορούν τη μόρφωση στις ΗΠΑ και τη
στάση για την έκτρωση, δίνεται στον Πίνακα 4.6.

Πίνακας 4 .6 Κατάλοιπα Pearson για τη στάση στην έκτρωση σε


σχέση με τη μόρφωση, ΗΠΑ, 1972-74
Σταση

Θετική Ενδιά μεση Αρνητική

Μόρφωση ~ 8 -6,99 1,38 5,52


9-12 - 1 ,ΙΟ 0,51 0,67
~ 13 6,76 -1,74 -5,07

Το θεώρημα διάσπασης (decomposition theorem) μας λέ­


ει ότι μπορούμε να γράψουμε ένα στοιχείο του πίνακα C ως

(i=l, ... ,I; j = l, .. j)


Ανάλυση αντιστοιχιών r8r

όπου Κ είναι το μικρότερο του J- 1 και] - 1. Τα λk είναι


γνωστά ως ιδ~οτιμές και οι τετραγωνικές τους ρίζες, που είναι
-{ik ή λ \2, είναι οι ιδιάζουσες τιμές.
Αυτοί είναι μαθηματικοί όροι οι οποίοι εδώ χρησιμοποιούνται
ως βολικοί και κατάλληλοι χαρακτηρισμοί αλλά για το σκοπό
μας δεν είναι απαραίτητο να ξέρουμε τίποτα για τον τεχνικό
τους ρόλο στην παραγωγή της διάσπασης του πίνακα C. Τα uik
και τα v1k μπορούν να υποτεθούν ότι είναι τιμές προσαρτημέ­
νες στις γραμμές και τις στήλες. Στην απλή ανάλυση που
πραγματοποιήσαμε για τα δεδομένα σχετικά με τη στάση
στην έκτρωση, βρήκαμε τιμές για τις κατηγορίες της γραμμής.
Σε εκείνη την περίπτωση ισχύει Κ=2, έτσι δεν υπήρχε καμία
μείωση στις διαστάσεις και υπήρχαν δύο τιμές για κάθε κατη­
γορία. Στη γενική περίπτωση, κάθε κατηγορία γραμμής απει­
κονίζεται με ένα σημείο στις Κ διαστάσεις με συντεταγμένες
(u;1, u; 2, ... , uik) και οι κατηγορίες της στήλης με σημεία με συ­
ντεταγμένες (v11 , v12 , .. . , v k)- Ωστόσο, συνήθως, θέλουμε να α­
1
ναπαραστήσουμε κατηγορίες γραμμής και στήλης με σημεία
σε ένα χώρο μικρής διάστασης (κατά προτίμηση δύο).
Η καλύτερη προσέγγιση για το cij σε δύο διαστάσεις είναι:

όπου λ 1 και λ 2 είναι οι δύο μεγαλύτερες ιδιοτιμές. Επομένως,


για να παραστήσουμε μία γραφική παράσταση σε δύο δια­
στάσεις, θα μπορούσαμε να σχεδιάσουμε τα (u; 1, u; 2 ,) και (v11 ,
Vj2)-
Συνήθως, οι συvrεταγμένες είναι κατά κάποιον τρόπο τυ-

ποποιημένες. Θα χρησιμοποιήσουμε την ακόλουθη τυποποί­


ηση (που εφαρμόζεται στο SPSS ν.10), όπου η τυποποιημένη
συντεταγμένη της γραμμής για τη διάσταση k υπολογίζεται ως

λ'k
!/4
• Uik
U;k =
.Joi+ Ιn
r82 Ανάλυση πολυμει:αβλψω11 δεδομένων για κο1νω11ικtς επuπήμες

Τα u;k πολλαπλασιάζονται με το αντίστροφο των τετραγωνι­


κών ριζών των συνόλων της γραμμής για να διασφαλιστεί ό­
τι οι κατηγορίες της γραμμής με υψηλές σχετικές συχνότητες
δεν θα υπερισχύουν των γραμμών με μικρές συχνότητες. Επι­
πρόσθετα, τα u;k πολλαπλασιάζονται με το λ 114 έτσι ώστε να
δίνεται περισσότερη βαρύτητα στις συντεταγμένες που αντι­
στοιχούν στις πιο σημαντικές διαστάσεις παρά στις συντε­
ταγμένες με λιγότερο σημαντικές διαστάσεις .
Τα vjk μετατρέπονται κατά όμοιο τρόπο για να αποκτη­
θούν τυποποιημένες συντεταγμένες και για τις στήλες v*Jk·
Οι ιδιοτιμές του πίνακα C είναι ο βασικός τρόπος για να
κρίνουμε τη σημασία των διαφόρων διαστάσεων. Μία ιδιοτι­
μή συσχετισμένη με κάθε διάσταση, αναπαριστά τη διασπο­
ρά των «προφίλ» σχετικά με την κεντροειδή σε εκείνη τη διά­
σταση που σημαίνει την συνεισφορά του Χ2 που σχετίζεται με
εκείνη τη διάσταση. Ένας εναλλακτικός τρόπος για να υπο­
λογίσουμε τη συνολική συνεισφορά του Χ2, είναι να πάρουμε
το άθροισμα των ιδιοτιμών. Οι ιδιοτιμές μπορούν να συγκρι­
θούν κατά μήκος των διαστάσεων ώστε να προσδιοριστεί η
σχετική σημασία κάθε διάστασης κατά στην εξήγηση του Χ2.
Οι ιδιοτιμές διατάσσονται ώστε λ 1 ~λ 2 ~ ... ~λk. Έτσι οι διαστά­
σεις κατασκευάζονται ώστε η πρώτη διάσταση να εξηγεί το
μεγαλύτερο μέρος του Χ ή ισοδύναμα της αδράνειας, η δεύ­
2

τερη διάσταση εξηγεί το μεγαλύτερο μέρος της εναπομείνα­


σας αδράνειας κ.ο.κ.
Το ποσοστό του Χ2 ή της αδράνειας, που δικαιολογείται α­
πό τη διάσταση k είναι

Για τα δεδομένα που αφορούν στη μόρφωση στις ΗΠΑ


και τη στάση στην έκτρωση, το ποσοστό της αδράνειας που
εξηγείται από την πρώτη διάσταση είναι 0,049/0,05 = 99%.
Ανάλυση αντιστοιχιών

Η δεύτερη διάσταση εξηγεί μόνο το 1% της αδράνειας. Ένας


άλλος τρόπος για να δούμε τη συμβολή της πρώτης διάστα­
σης είναι ο υπολογισμός της τιμής του Χ2, εάν λάβουμε υπό­
ψη μας μόνο την πρώτη διάσταση . Αυτό υπολογίζεται ως ε­
ξής: λ1 χ n = 0,049 χ 3181 = 151,0 (συγκρινόμενο με το
157,58 για τον πλήρη πίνακα). Επομένως, η περισσότερη α­
πό τη μεταβλητότητα των «προφίλ» της γραμμής μπορεί να
εκφραστεί σε μία διάσταση.

Διπλή κλιμακοποίηση (Dual scaling)

Σε αυτό το σημείο, αξίζει να σημειωθεί μία σύγκλιση μετα­


ξύ δύο διαφορετικών προσεγγίσεων που αφορούν την ανά­
λυση συσχέτισης σε πίνακες συνάφειας. Στην προσέγγιση
την οποία εδώ ακολουθούμε, οι τιμές της κατηγορίας προ­
κύπτουν από την διάσπαση του πίνακα, αλλά δεν υπήρχε
κάποιο σκεπτικό στην έναρξη της προσπάθειας του καθορι­
σμού τιμών στις κατηγορίες. Η άλλη προσέγγιση ξεκινά με
αυτό που φαίνεται να είναι ένας αρκετά διαφορετικός στό­
χος, την κλιμακοποίηση των παρατηρήσεων και των κατη­
γοριών, που μερικές φορές ονομάζεται διπλή κλιμακοποίη­
ση. Γνωρίζουμε πολλά όσον αφορά τη διερεύνηση της δο­
μής της συσχέτισης συνεχών μεταβλητών. Θα ήταν δυνατή
η χρησιμοποίηση αυτής της γνώσης στους πίνακες συνάφει­
ας, εάν μπορούσαμε να μετατρέψουμε τα κατηγορικά δεδο­
μένα σε συνεχή. Η διπλή κλιμακοποίηση που είναι επίσης
γνωστή ως βέλτιστη κλιμακοποίηση, αναζητά την ύπαρξη
κάποιου βέλτιστου τρόπου καθορισμού τιμών για τις παρα­
τηρήσεις και τις κατηγορίες, ώστε η δομή να μπορεί να δι­
ερευνηθεί με όρους παλινδρόμησης και συσχέτισης. Εδώ
δεν μπορούμε να υπεισέλθουμε σε λεπτομέρειες, αλλά η μέ­
θοδος εμφανίζεται να είναι παρόμοια με την ανάλυση αντι­
στοιχιών, όπως την έχουμε περιγράψει. Για κάποιο λόγο, η
μέθοδος επίλυσης μέσω της κλιμακοποίησης, είναι ο πιο
φυσικός τρόπος για να προσεγγίσουμε κάποιες από τις ερω-
Ανάλυση πολυμεταβλητων δεδομένων για κοινωνικές επιστήμες

τήσεις που σκιαγραφήσαμε στην αρχή του κεφαλαίου. Για


παράδειγμα, η ερώτηση iii) στην Παράγραφο 4.1 ρωτούσε
εάν οι κατηγορίες ήταν διατάξιμες. Εάν ήταν διατάξιμες,
θα περίμενε κανείς να μπορεί να καθορίσει τιμές στις κα­
τηγορίες, έτσι ώστε να σχηματίσουν μία αυξανόμενη (ή μει­
ούμενη) ακολουθία. Η ανάλυσή μας δείχνει ότι, γενικά, δεν
μπορεί να υπάρχει μονοσήμαντη απάντηση σε αυτό το ερώ­
τημα, γιατί η μέθοδος δίνει Κ διαφορετικά σύνολα τιμών
στις κατηγορίες γραμμών και κάθε μία θα δώσει διαφορε­
τική διάταξη. Ωστόσο, όπως είδαμε με τα δεδομένα για την
έκτρωση, εάν μία διάσταση είναι κυρίαρχη, μπορούμε λο­
γικά να μεταχειριστούμε τις τιμές στις οποίες αυτή μας ο ­
δηγεί σαν να μετατρέπουμε μία ονομαστική κλίμακα σε μία
κλίμακα διαστήματος.

4.4 Το διάγραμμα διπλής προβολής (biplot)

Η διαδικασία με την οποία τα «προφίλ» της γραμμής απει­


κονίζονται γεωμετρικά (Παράγραφος 4.2) μπορεί να επανα­
ληφθεί για τα «προφίλ» της στήλης. Προκύπτει από τη μέθο­
δο της διάσπασης ιδιάζουσων τιμών του πίνακα C που δίνε­
ται παραπάνω ότι η διασπορά των προφίλ της στήλης σε
σχέση με την μέση τιμή των προφίλ της στήλης είναι ίση με
την διασπορά των προφίλ της γραμμής σε σχέση με την μέση
τιμή των προφίλ της γραμμής. Έτσι η συνολική αδράνεια
μπορεί να προκύψει λαμβάνοντας υπόψη ή τα «προφίλ» της
γραμμής είτε τα «προφίλ» της στήλης. Επίσης, η διάσταση
των «προφίλ» της γραμμής είναι η ίδια όπως αυτή για τα
«προφίλ» της στήλης, ακόμα και αν ο αριθμός των γραμμών
και των στηλών είναι άνισος. Ο μέγιστος αριθμός των δια­
στάσεων που χρειαζόμαστε για να παραστήσουμε είτε τα
«προφίλ» της γραμμής είτε τα «προφίλ» της στήλης είναι: Κ
= min(/ - 1,] - 1). Όσο αφορά την μείωση των διαστάσεων,
η γραμμή που προσαρμόζεται καλύτερα ή η επιφάνεια/επί­
πεδο που προσαρμόζεται καλύτερα στα «προφίλ» των γραμ-
Ανάλυση αντιστο~χιών 185

μών εξηγεί την ίδια αναλογία αδράνειας όπως και η γραμμή


που προσαρμόζεται καλύτερα ή η επιφάνεια που προσαρμό­
ζεται καλύτερα στα «προφίλ» των στηλών.
Τα γραφήματα δύο διαστάσεων που αναπαριστούν τα
«προφίλ» γραμμής ή στήλης, μπορούν να μελετηθούν ώστε
να βρούμε εάν κάποια από τις κατηγορίες γραμμής ή στήλης
έχουν όμοια «προφίλ». Οι κατηγορίες γραμμής ή στήλης που
έχουν όμοια «προφίλ» θα εμφανιστούν με μεγάλη εγγύτητα
πάνω στο γράφημα. Αυτό μπορεί να μας είναι χρήσιμο για
να προσδιορίσουμε εάν κάποια κατηγορία γραμμής ή στή­
λης μπορεί να συνδυαστούν σε μία μεταγενέστερη ανάλυση.
Ωστόσο, επίσης ενδιαφέρει το πώς οι κατηγορίες γραμμής
και στήλης αλληλεπιδρούν συμμετέχοντας στη συνολική συ­
νάφεια. Αυτή η άποψη μπορεί να διερευνηθεί με τη βοήθεια
των διαγραμμάτων διπλής προβολής (biplots), τα οποία είναι
γραφήματα των σημείων (u;1,u;2) και (vji,vj2) πάνω στο ίδιο
διάγραμμα.
Ο σκοπός ενός διαγράμματος διπλής προβολής μπορεί να
παρατηρηθεί ανατρέχοντας πίσω στην διάσπαση του πίνακα
των τυποποιημένων καταλοίπων που δίνεται παραπάνω. Αυ­
τό μας δείχνει πως η τιμή της γραμμής και της στήλης συμ­
μετέχει στο συνολικό μέγεθος του καταλοίπου.
Θυμηθείτε ότι η (u;Ί,) είναι η συντεταγμένη στη διάσταση k
που αναπαριστά την κατηγορία της γραμμής i και (vjk) είναι
η συντεταγμένη στη διάσταση k που αναπαριστά την κατηγο­
ρία της στήλης j. Το γινόμενο (uilvvjk) αναπαριστά την από
κοινού συμμετοχή της γραμμής i και της στήλης j στο κατά­
λοιπο που απορρέει από τη διάσταση k. Αυτό συχνά αναφέ­
ρεται ως η «συνάφεια» της γραμμής i και της στήληςj, αλλά
θα πρέπει να διαχωριστεί από τη συνολική συνάφεια ανάμε­
σα στις κατηγορίες γραμμής και τις κατηγορίες στήλης που
μετρώνται με το Χ2 με το οποίο ξεκινήσαμε την ανάλυση. Εί­
ναι περισσότερο ακριβές να αναφέρεται ως μία συμβολή στη
συνολική συνάφεια που απορρέει από μία συγκεκριμένη
γραμμή και στήλη.
186 Ανάλυση πολvμεταβλητων δεδομένων για κοιvωvικές επιστήμες

Με αυτή την έννοια, μία μεγάλη θετική τιμή για τις (uiΊι, vjk)
υποδεικνύει μία θετική συσχέτιση ανάμεσα στη γραμμή i και
τη στήληj πάνω στη διάσταση k.
Μία μεγάλη θετική τιμή επιτυγχάνεται εάν τα (u~) και (vjk)
έχουν και τα δύο μεγάλες και θετικές τιμές ή μεγάλες και
αρνητικές που σημαίνει ότι τα σημεία για αυτές τις
κατηγορίες εμφανίζονται να είναι κοντά μεταξύ τους πάνω
στο διάγραμμα διπλής προβολής και μακριά από το μηδέν
στη διάσταση k.
Μία μεγάλη αρνητική τιμή για τα (uiΊι,vjk) υποδεικνύει μία
αρνητική συσχέτιση ανάμεσα στη γραμμή i και τη στήλη j
στη διάσταση k. Μία μεγάλη αρνητική τιμή επιτυγχάνεται, ε­
άν ένα από τα (u~) και (vjk) είναι μεγάλο και θετικό και το άλ­
λο είναι μεγάλο και αρνητικό που σημαίνει ότι τα σημεία για
αυτές τις κατηγορίες εμφανίζονται να είναι πολύ μακριά με­
ταξύ τους πάνω στο διάγραμμα διπλής προβολής, με κανένα
σημείο κοντά στο μηδέν στη διάσταση k.
Μία τιμή κοντά στο μηδέν για το (u* vjk) δεν υποδεικνύει
συσχέτιση ανάμεσα στη γραμμή i και τη στήληj στη διάστα­
ση k. Μία τιμή κοντά στο μηδέν επιτυγχάνεται εάν μία ή και
οι δύο από τα (u;k) και (vjk) είναι κοντά στο μηδέν πάνω στη
διάσταση k.
Υπάρχουν δύο τύποι διαγράμματος διπλής προβολής που
μπορούν να χρησιμοποιηθούν στην CORA: τα ασύμμετρα
γραφήματα και τα συμμετρικά γραφήματα . Για το συμμετρι­
κό γράφημα έχουμε ήδη συζητήσει παραπάνω και θα το α­
πεικονίσουμε ακολούθως. Σημειώνεται ότι αυτό το γράφημα
είναι γενικά περισσότερο χρήσιμο.

Συμμετρικά γραφήματα

Η συσχέτιση ανάμεσα σε μία κατηγορία γραμμής και μία


κατηγορία στήλης μπορεί να προσδιοριστεί σύμφωνα με την
εγγύτητα των σημείων των «προφίλ» τους πάνω στο διάγραμ­
μα διπλής προβολής. Ωστόσο, αυτές οι εγγύτητες θα πρέπει
Ανάλυση αντιστοιχιών

να ερμηνευθούν με προσοχή. Εάν το σημείο της κατηγορίας


γραμμής 1 είναι πιο κοντά στο σημείο της κατηγορίας στή­
λης 2, δεν μπορούμε να πούμε τίποτα με απόλυτη σιγουριά
για το μέγεθος της αλληλεπίδρασής τους . Μπορούμε μόνο να
το εξηγήσουμε με σχετικούς όρους . Αυτό σημαίνει ότι μπορού­
με να πούμε για παράδειγμα ότι οι παρατηρήσεις της κατη­
γορίας γραμμής 1 είναι σχετικά πολύ πιθανό (συγκρινόμενα
με το μέσο «προφίλ» γραμμής) να βρίσκονται στην κατηγο­
ρία στήλης 2. Μπορεί να ισχύει ότι συνολικά υπάρχουν πολύ
λίγες παρατηρήσεις στην κατηγορία στήλης 2. Το μόνο που
μπορούμε να πούμε από το συμμετρικό γράφημα είναι ότι οι
παρατηρήσεις στην κατηγορία γραμμής 1 είναι πιο πιθανό
να βρίσκονται στην κατηγορία στήλης 2, σε σχέση με παρα­
τηρήσεις που ανήκουν σε άλλες κατηγορίες γραμμής.
Οι συντεταγμένες των σημείων σε ένα συμμετρικό διά­
γραμμα διπλής προβολής έχουν τροποποιηθεί έτσι ώστε τα
σημεία γραμμής ή στήλης για τις γραμμές ή στήλες με υψη­
λές μάζες (συχνότητες περιθωρίου) να μην κυριαρχούν. Τρο­
ποποιούνται ακόμα περισσότερο (όπως περιγράφουμε στην
Παράγραφο 4.3), έτσι ώστε να προστίθεται περισσότερο βά­
ρος στις συντεταγμένες που αντιστοιχούν στις περισσότερο
σημαντικές διαστάσεις από ότι οι συντεταγμένες που αντι­
στοιχούν στις λιγότερο σημαντικές διαστάσεις.
Αυτή η διαδικασία απεικονίζεται στο διάγραμμα διπλής
προβολής στο Σχήμα 4.3 και δείχνει τα «προφίλ» της γραμ­
μής και της στήλης για τα δεδομένα για την έκτρωση στις Η­
ΠΑ. Οι συντεταγμένες για« ~ 13 έτη» (κατηγορία γραμμής 3)
και « θετικός» (κατηγορία στήλης 3) είναι και οι δύο μεγάλες

και θετικές πάνω στη διάσταση 1, δίνοντας μία μεγάλη θε­


τική τιμή για την (u31,V 3 ι)-
Έτσι, αυτοί που έχουν 13 ή και περισσότερα έτη μόρ­
φωσης έχουν σχετικά θετική συσχέτιση με αυτούς που έ­
χουν θετική στάση απέναντι στην έκτρωση . Η μεγάλη αρ­
νητική συντεταγμένη για «:ς8 έτη» (κατηγορία γραμμής 1)
στη διάσταση 1 και η μεγάλη θετική συντεταγμένη για το
188 Ανάλυση πολυμn;αβλητων δεδομένων για κοινωνικές επιιπήpες

«θετικός» οδηγεί σε μία μεγάλη αρνητική τιμή για την


(ui1,V31).
Αυτοί που έχουν 8 ή και λιγότερα έτη μόρφωσης είναι λι­
γότερο πιθανό να έχουν θετική στάση από ότι αυτοί που
έχουν περισσότερη μόρφωση.
Σημειώστε ότι οι συντεταγμένες για «9-12 έτη» και «ενδιά­
μεση» στη διάσταση 1 είναι και οι δύο κοντά στο μηδέν. Αυ­
τοί που έχουν 9-12 έτη μόρφωσης δεν έχουν καμία σχέση με
καμία κατηγορία στάσης και αυτοί που έχουν στάση αναπο­
φάσιστου δεν συσχετίζονται με καμία κατηγορία μόρφωσης.
Το τελευταίο μπορεί να εξεταστεί με το να δούμε τα
«προφίλ» της γραμμής (πίνακας 4.4). Η αναλογία με τη στά­
ση αναποφάσιστου μεταβάλλεται λίγο σε σχέση με τις κατη­
γορίες της μόρφωσης.
Τα συμμετρικά διαγράμματα διπλής προβολής είναι
πρωταρχικής σημασίας για την επεξήγηση των πινάκων συ­
χνότητας και επομένως θα παραθέσουμε δύο επιπλέον παρα­
δείγματα. Τα διαγράμματα διπλής προβολής από την CORA
των δεδομένων του Πίνακα 4.1 και του Πίνακα 4.2 παρου­
σιάζονται στο Σχήμα 4.4 και στο Σχήμα 4.5 αντίστοιχα.
Από το Σχήμα 4.4, μπορούμε να πούμε ότι η ψήφιση του
Εργατικού Κόμματος είναι σχετικά συσχετισμένη με την ψή­
φιση ενός κόμματος λόγω αυτών που απάντησαν ότι «έτσι ψη­
φίζω πάντα». Φτάνουμε σε αυτό το συμπέρασμα γιατί αυτές οι
συγκεκριμένες κατηγορίες γραμμής και στήλης έχουν στενή
σχέση πάνω στο γράφημα. Η ψήφιση του Συντηρητικού Κόμ­
ματος είναι σχετικά συσχετισμένη με την ψήφιση του «καλύτε­
ρου κόμματος». Τα άτομα που αρνήθηκαν να δηλώσουν ποιο
κόμμα ψήφισαν είναι πιο κοντά στους ψηφοφόρους του Συ­
ντηρητικού Κόμματος με βάση την κατανομή τους έναντι των
κατηγοριών για τον κύριο λόγο ψήφου . Αυτοί που ψήφισαν το
Συντηρητικό και το Εργατικό Κόμμα είναι σχετικά απίθανο να
ψήφισαν αυτά τα κόμματα γιατί πίστεψαν ότι το κόμμα τους
δεν θα είχε καμία πιθανότητα να κερδίσει.
Ανάλvοη αντιστοιχιών

Σχήμα 4.3 Διάγραμμα διπλής προβολής για τη στάση απέναντι στην


έκτρωση σε σχέση με τη μόρφωση, ΗΠΑ, 1972-74
Dimension 2
1
Ο Attitude
"' Education

•<= 8 years
Ο Negatiνe

·1 9-12 years .6.


0Mixed
Dimension 1

Είναι σημαντικό να δώσουμε έμφαση mη χρήση της λέ­


ξης σχετικά mην περιγραφή της συνάφειας ανάμεσα mην κα­
τηγορία γραμμής και mην κατηγορία mήλης. Από τον τύπο
του γραφήματος 4.3 (ένα συμμετρικό διάγραμμα διπλής
προβολής), δεν μπορούμε να πούμε τίποτα σχετικά με το α­
πόλυτο επίπεδο της συνάφειας. Μπορούμε μόνο να πούμε ότι
ένα ζεύγος κατηγοριών γραμμής-mήλης που είναι κοντά με­
ταξύ τους έχουν πιο δυνατή συνάφεια από ότι ένα ζεύγος κα­
τηγοριών που είναι πιο απομακρυσμένες.
Η CORA είναι περισσότερο χρήσιμη mην ανάλυση μεγά­
λων πινάκων συνάφειας, όπως ο Πίνακας 4.2. Από το Σχήμα
4.5 μπορούμε να δούμε, για παράδειγμα, ότι το να είναι κα­
νείς συνταξιούχος είναι σχετικά συνδεδεμένο με το να πηγαί­
νει mην εκκλησία και ότι οι σπουδαmές και οι εργάτες με
Ανάλυση πολvμετaβ.ιη;rων δεδομένwv για κοινωνικές επιστήμες

χαμηλό ποσοστό μη χειρωνακτικής εργασίας είναι περισσό­


τερο πιθανό να πηγαίνουν στον κινηματογράφο και σε ποπ
συναυλίες από ότι κάποια άλλη ομάδα απασχόλησης. Ο
Clausen (1998) επίσης θέτει μία ερμηνεία πάνω στο χώρο
των δύο διαστάσεων. Η διάσταση 1 ξεχωρίζει τους νέους
(σπουδαστές) από τους γέρους (συνταξιούχοι), ενώ η διάστα­
ση 2 ξεχωρίζει τις καλλιτεχνικές δραστηριότητες (π.χ. συναυ­
λία κλασικής μουσικής) από την ελαφριάς μορφής διασκέδα­
ση (π.χ. ντίσκο).

1.
.,,. Reason
_ ο Party
1

conservatiνe
ο

...
Bostρany

efused
ο

-1 .5 Always νote that way 1.5


ο ...
0 "'8r lβboor

UbDem ο
ο

My party had no chance


...
-1.

Σχήμα 4.4 Διάγραμμα διπλής προβολής για τον πίνακα συνάφει­


ας για την προτίμηση κόμματος σύμφωνα με τον κύριο λόγο επιλογής
κόμματος, British General Election Study 1992
Ανάλυση αντιστοιχιών r9r

Σχήμα 4.5 Διάγραμμα διπλής προβολής για τον πίνακα συνάφειας


για τις δραστηριότητες ανά επάγγελμα, Survey of Level of Living
1995, Νορβηγία

"' Actίvity
ο Occupation

DanceJίsco
Cale/Ae1,.ιauranl

Ch1rch
ORetinid

Ostudent
-1
Clnf"a Low Nonδ'an

Popcincert
Artox'lhftian
High Non-man
•τhaaι re

CJassica!.._concen

-1

Ασύμμετρα γραφήματα

Σε ένα ασύμμετρο διάγραμμα διπλής προβολής, τα «προφίλ»


της γραμμής δεν συγκρίνονται με τα «προφίλ» της στήλης,
αλλά με τους κατακόρυφους άξονες (εναλλακτικά, τα
«προφίλ» της στήλης και οι κάθετες γραμμές σχεδιάζονται
ταυτόχρονα). Το σημείο στο οποίο μπορεί να γίνει αυτό μπο­
ρεί να απεικονιστεί χρησιμοποιώντας την περίπτωση ενός
πίνακα 3χ3. Οι κάθετες στήλες είναι τα ακόλουθα σημεία σε
τρισδιάστατο χώρο: (1, Ο, Ο), (Ο, 1, Ο) και (Ο , Ο, 1), όπου η
πρώτη, η δεύτερη και η τρίτη συντεταγμένη είναι οι αναλογί­
ες στις στήλες 1, 2 και 3 αντίστοιχα. Αυτά τα σημεία αναπα­
ριστούν ακραίες περιπτώσεις στις οποίες όλα τα μέλη μιας
γραμμής βρίσκονται σε μία κατηγορία στήλης. Τα γωνιακά
σημεία της περιοχής του τριγώνου που φαίνονται στο Σχήμα
4.1 είναι οι κάθετες στήλες. Υποθέστε ότι το «προφίλ» σημεί-
192. Ανάλυση πολvμεταβλητων δεδομένων για κοινωνικές επιστήμες

ο (0,9, 0,04, 0,06) για τη γραμμή 1 σrον πίνακα, ήταν πολύ


κοντά σrην κορυφή (1, Ο, Ο). Αυτό θα υποδείκνυε ότι η πλει­
ονότητα των παρατηρήσεων σrη γραμμή 1 βρίσκονται σrη
σrήλη 1. Με άλλα λόγια, υπάρχει μία μεγάλη θετική συσχέ­
τιση ανάμεσα σrην κατηγορία γραμμής 1 και σrην κατηγο­
ρία σrήλης 1. Από την άλλη πλευρά, υποθέσrε ότι το
«προφίλ» σημείο της γραμμής 1 ήταν πολύ κοντά σε μία από
τις άλλες καθέτους. Αυτό θα υποδείκνυε μία υψηλή αρνητική
συσχέτιση ανάμεσα σrην κατηγορία γραμμής 1 και σrην κα­
τηγορία σrήλης 1, εφόσον οι παρατηρήσεις σrην κατηγορία
γραμμής 1 είναι σχετικά απίθανο να είναι σrην κατηγορία
της σrήλης 1. Για έναν πίνακα με μεγαλύτερη διάσrαση, η
CORA χρησιμοποιείται για να επιτευχθεί μία παραπλήσια,
λίγων διασrάσεων αναπαράσrαση των «προφίλ» γραμμής και
των κάθετων σrηλών, κατά προτίμηση σε ένα μονοδιάσrατο
ή δισδιάσrατο χώρο. Το γράφημα λίγων διασrάσεων εξηγεί­
ται με τον ίδιο τρόπο.
Το βασικό πρόβλημα με τον ασύμμετρο χάρτη είναι ότι
συνήθως τα «προφίλ» της γραμμής είναι αρκετά κοντά σrην
κεντροειδή (μέσο «προφίλ»). Η πρόσθεση των καθέτων σrη­
λών σrο γράφημα μεταβάλλει την κλίμακα του χάρτη έτσι ώ­
σrε τα «προφίλ» της γραμμής τείνουν να εμφανίζονται πολύ
κοντά μεταξύ τους με αποτέλεσμα να είναι σχεδόν δυσδιά­
κριτα. Ωσrόσο, εάν η διασπορά των «προφίλ» της γραμμής
σχετικά με τη κεντροειδή είναι μεγάλη (εννοώντας ότι η α­
δράνεια είναι μεγάλη), μπορεί να είναι χρήσιμος ένας ασύμ­
μετρος χάρτης. Επίσης, θα υπάρχουν περιπτώσεις όπου δεν
θα είναι ξεκάθαρο εάν θα πρέπει να δούμε τη διαδικασία δη­
μιουργίας ενός πίνακα συνάφειας με βάση τα «προφίλ» της
γραμμής ή της σrήλης. Αυτό μπορεί να συμβεί, για παρά­
δειγμα, εάν οι μεταβλητές της γραμμής ή της σrήλης μπο­
ρούν να ληφθούν ως εξαρτημένες μεταβλητές. Σε αυτή την
περίπτωση, τα «προφίλ» γραμμής και σrήλης είναι ισοδύνα­
μα ουσιασrικού ενδιαφέροντος, με αποτέλεσμα να είναι πε­
ρισσότερο κατάλληλο ένα συμμετρικό γράφημα.
Ανάλυση αντιστοιχιών 193

4.5 Ερμηνεία των διαστάσεων

Μερικές φορές είναι πιθανό να ερμηνεύσουμε ή να «χαρα ­


κτηρίσουμε» τις διαστάσεις που αποκτώνται με τη μέθοδο
CORA. Αυτό το κάνουμε μέσω της εξέτασης της θέσης των
κατηγοριών γραμμής/στήλης κατά μήκος κάθε διάστασης
και αναλογιζόμενοι σχετικά με ό,τι έχουν κοινό οι κατηγορί­
ες γραμμής/στήλης που εμφανίζονται να είναι κοντά μεταξύ
τους και τι είναι αυτό που ξεχωρίζει αυτές που εμφανίζονται
να είναι πολύ μακριά μεταξύ τους. Για παράδειγμα, στην α­
νάλυση για τα δεδομένα σχετικά με τον ελεύθερο χρόνο των
Νορβηγών, ο Clausen (1998) βρήκε ότι στην πρώτη διάστα­
ση, οι ελαφρές ψυχαγωγικές δραστηριότητες ήταν ομαδο­
ποιημένες μαζί και εμφανίζονταν πολύ απομακρυσμένες από
μία ομάδα καλλιτεχνικών δραστηριοτήτων. Τα διαγράμματα
διπλής προβολής παρέχουν μία οπτική επίδειξη τέτοιας ομα­
δοποίησης των κατηγοριών γραμμής/στήλης. Ωστόσο, όταν
ερμηνεύουμε μία διάσταση, είναι σημαντικό να δείξουμε ι­
διαίτερη προσοχή σε εκείνα τα σημεία, τα οποία συμβάλλουν
τα μέγιστα στην αδράνεια ή στη διασπορά των σημείων κα­
τά μήκος αυτής της διάστασης.
Υποθέστε ότι θέλουμε να ερμηνεύσουμε την k διάσταση
λαμβάνοντας υπόψη τα «προφίλ» της γραμμής. Κατά την ε­
πίλυση με τη μέθοδο CORA, μπορούμε να διαμερίσουμε τη
συμμετοχή κάθε σημείου στη συνολική αδράνεια, στις συμ­
μετοχές του στην αδράνεια σε κάθε διάσταση. Το ποσό της
αδράνειας κατά μήκος της k διάστασης που εξηγείται με το
σημείο γραμμής ί είναι:

(massfor row ί)χu: 2 2


κ =U;k

Έτσι τα σημεία που αντιστοιχούν στις γραμμές με υψηλή


194 Ανάλυση nολvμααβλητων δεδομένwν για κοινωνικές εnισιήμες

μάζα γραμμής και με μία μεγάλη συντεταγμένη στην k διά­


σταση θα συνεισφέρουν τα μέγιστα στην αδράνεια στην k
διάσταση. Με παρόμοιο τρόπο υπολογίζεται το ποσό της α­
δράνειας που εξηγείται από ένα δεδομένο σημείο στήλης. Τα
σημεία με σχετικά μεγάλες συμμετοχές είναι πολύ σημαντι­
κά σε αυτή τη διάσταση και παρέχουν το κλειδί για την ερ­
μηνεία της. Αυτές οι τιμές εξετάστηκαν μαζί με το πρόσημο
των συντεταγμένων της αντιστοιχίας για να ερμηνεύσουμε
την k διάσταση.

Πίνακας 4.7 Συντεταγμένες κα~ συμμετοχή στην αδpάνε~α των ση­


μείων της γραμμής γ~α τη στάση στην έκτρωση με τη μόρφωση, ΗΠΑ,
1972-74

Συντεταγμένη Συμμετοχή στην αδράνε ια

Μ:όε~ωσ9 Μάζα γεα~~~ς Διάστασ9 Ι Διάστασ9 2 Διάστασ9 ! Διάστασ9 2


~8 0,170 -0,821 0,123 0,516 0,314
9-12 0,533 -0,069 -0,084 0,012 0,455
~ 13 0,297 0,595 0,080 0,473 0,230
Πίνακας 4.8 Συντεταγμένες κα~ συμμετοχή στην αδpάνε~α των ση­
μείων της στήλης γ~α τη στάση στην έκτρωση με την μόρφωση, ΗΠΑ,
1972-74

Συντεταγμένη Συμμετοχή στην αδράνεια


Στάσ9 Μάζα στ~Χ9ς Διάστασ9 ! Διάστασ9 2 Διάστασ9 1 Διάστασ9 2
Θετική 0,369 0,606 0,022 0,609 0,022
Ενδιάμεση 0,196 -0,191 -0,180 0,032 0,773
Αρνητική 0,435 -0,428 0,062 0,359 0,206

Απεικονίζουμε αυτή τη διαδικασία χρησιμοποιώντας τα


δεδομένα για τη μόρφωση στις ΗΠΑ και τη στάση στην έ­
κτρωση . Ο Πίνακας 4. 7 δείχνει τις μάζες και τις συντεταγμέ­
νες της γραμμής στις διαστάσεις 1 και 2 (Σχήμα 4.3) και τη
συμμετοχή κάθε σημείου της γραμμής στην αδράνεια πάνω
σε κάθε διάσταση κατά τη διάρκεια της επίλυσης στο χώρο
Ανάλυση αντιστοιχιών 195

των δύο διασrάσεων. Οι συμμετοχές σrην αδράνεια εκφρά­


ζονται ως αναλογίες σrο σύνολο της αδράνειας σε εκείνη τη
διάσrαση. Ο Πίνακας 4.8 δείχνει τις ίδιες ποσότητες για τις
κατηγορίες της σrήλης. Ξεκινώντας με τις κατηγορίες γραμ­
μής, βλέπουμε ότι οι κατηγορίες «~8 έτη» και «~ 13 έτη» ερ­
μηνεύουν όμοιες αναλογίες της αδράνειας πάνω σrη διάσrα­
ση 1. Αυτές οι δύο κατηγορίες έχουν συντεταγμένες οι οποί­
ες είναι αντίθετες σrο πρόσημο. Έτσι μπορούμε να χαρακτη­
ρίσουμε τη διάσrαση 1 ως το «επίπεδο μόρφωσης». Επισrρέ­
φοντας σrις κατηγορίες σrήλης (Πίνακας 4.8), βρίσκουμε ό­
τι η κατηγορία «θετική» συμμετέχει περισσότερο σrη διάσrα­
ση 1 και ακολουθεί η κατηγορία «αρνητική». Οι αντίσrοιχες
συντεταγμένες σrη διάσrαση 1 είναι αντίθετες σrο πρόσημο,
οδηγώντας σrην ονομασία αυτής της διάσrασης ως «κατεύ­
θυνση της σrάσης». Αν λάβουμε υπόψη την ερμηνεία της διά­
σrασης 1 αναφορικά και με τις κατηγορίες γραμμής και σrή­
λης, εισηγούμασrε ότι ένα υψηλό επίπεδο μόρφωσης είναι
συσχετισμένο με μία περισσότερο θετική σrάση απέναντι
σrην έκτρωση . Σε αυτή την περίπτωση, πλησιάσαμε σrην ί­
δια ερμηνεία των διασrάσεων, απλώς και μόνο εξετάζοντας
το διάγραμμα διπλής προβολής σrο Σχήμα 4.3. Ωσrόσο, γε­
νικά τα σημεία γραμμής/σrήλης με τις μεγαλύτερες συντε­
ταγμένες δεν θα μπορούν πάντα να έχουν τη μεγαλύτερη
συμμετοχή σrην αδράνεια εφόσον μπορεί να αντισrοιχούν σε
κατηγορίες γραμμής/σrήλης με μικρές σχετικές συχνότητες.
Επομένως είναι σημαντικό να εξετάσουμε και τα σημεία των
συντεταγμένων γραμμής/σrήλης και τη συμμετοχή των ση­
μείων στην αδράνεια, προκειμένου να ερμηνεύσουμε τις δια­
σrάσεις .

4.6. Επιλέγοντας τον αριθμό των διαστάσεων

Όπως και με τη μέθοδο MDS, ο σrόχος της CORA είναι να


ισορροπήσει την καλή προσαρμογή (goodness-of-fit) με την
οικονομία σrην επιλογή του αριθμού των διασrάσεων. Στό-
Ανάλυση πολvμααβλητων δεδομbων για κοινωνικές επιστήμες

χος είναι να επιλέξουμε όσο το δυνατόν λιγότερες διαστά­


σεις, επειδή έτσι το έργο της ερμηνείας είναι πιο εύκολο. Την
ίδια στιγμή, οι διαστάσεις που επιλέγουμε να ερμηνεύσουμε
θα πρέπει να μπορούν να ερμηνεύουν ένα λογικό ποσό της α­
δράνειας. Ένα κοινώς χρησιμοποιούμενο εργαλείο είναι το
γράφημα scree, το οποίο είναι παρόμοιο με αυτό που χρησι­
μοποιούμε στη MDS. Η αδράνεια για κάθε διάσταση σχεδιά­
ζεται και το γράφημα ελέγχεται για ένα σημείο «καμπής».
Αυτό ουσιαστικά σημαίνει ότι μετά από αυτό το σημείο υ­
πάρχει μικρότερη μείωση της αδράνειας. Το γράφημα scree
για τα δεδομένα των Νορβηγικών δραστηριοτήτων στον ε­
λεύθερο χρόνο παρουσιάζεται στο Σχήμα 4.6. Ο μέγιστος α­
ριθμός των διαστάσεων που χρειαζόμαστε για να παραστή­
σουμε τα δεδομένα είναι min(I0-1, 6-1) = 5. Η καμπή στις
τρεις διαστάσεις (ή πιθανότατα σε τέσσερις) προτείνει ότι
δύο (ή πιθανότατα τρεις) διαστάσεις επαρκούν για να αναπα­
ραστήσουμε τα δεδομένα.
Ένας άλλος τρόπος για να καθορίσουμε τον αριθμό των
διαστάσεων είναι να εξετάσουμε την αθροιστική αναλογία
της αδράνειας που ερμηνεύεται από τις διαστάσεις. Για πα­
ράδειγμα, στην περίπτωση των δεδομένων των Νορβηγών, οι
πρώτες δύο διαστάσεις εξηγούν το 90% της αδράνειας, ενώ
οι πρώτες τρεις το 99%.
Η αναλογία της συνολικής αδράνειας που εξηγείται από
τις πρώτες k διαστάσεις μπορεί να ληφθεί υπόψη ως ένα μέ­
τρο για το συνολικό έλεγχο καλής προσαρμογής της k-διά­
στατης λύσης. Μπορούμε επίσης να εξετάσουμε πόσο καλά
μπορεί κάθε κατηγορία γραμμής/στήλης να απεικονιστεί σε
k διαστάσεις. Για άλλη μία φορά ξεκινούμε λαμβάνοντας υ­
πόψη τις κατηγορίες γραμμής. Η συνολική αδράνεια του ση­
μείου της γραμμής Ι είναι:

Σf=tλk χ (amount oj ίnertίa on dίmension k explained by point ί)

= Σf= 1 .JX: x(massforrow ί) xu;: 2


Η συμμετοχή της διάστασης k στην αδράνεια του σημείου
Ανάλυση αντιστοιχιών 197

είναι τότε:
✓ λk χ (nιass for row ί) xu ;
2

Πίνακας 4.9. Συμμετοχές των δzαστάσεων στην αδράνεια των σημεi-


ων γzα τη στάση στην έκτρωση με τη μόρφωση, ΗΠΑ, 1972-74

Διάστασ~ Ι Διάστασ~ 2 ΣύνοΧο

Μόρφωση ~8 0,999 0,001 1,000


9-12 0,949 0,051 1,000
?: 13 0,999 0,001 1,000
Στάση Θετική 1,000 0,000 1,000
Ενδιάμεση 0,968 0,032 1,000
Αeνψικ~ 0,999 0,001 1,000

Σχήμα 4.6 Γράφημα scree γzα τα Νορβηγzκά δεδομένα σχετzκά με τις


δραστηρzότητες στον ελεύθερο χρόνο

ι:,
r98 Ανάλυση πολυμεταβληπ.w δεδομένων για κοινωνικές επιστήμες

Πίνακα 4.7 και το γεγονός ότι η αδράνεια στη διάσταση 1 εί­


ναι 0,049, η συνολική αδράνεια του σημείου της γραμμής 1
(~ 8 έτη μόρφωσης) για τα δεδομένα για την έκτρωση στις Η­
ΠΑ είναι: (0,049 0,516) + (0,001 χ 0,314) = 0,026, και η
χ
συμμετοχή της διάστασης 1 στην αδράνεια του σημείου της
γραμμής 1 είναι:
(Ο.049χ0.516)
--'------'-=0.99
0.026

Η συμμετοχή της k διάστασης στην αδράνεια των σημεί­


ων της στήλης μπορεί να υπολογιστεί με όμοιο τρόπο. Η
συμμετοχή των διαστάσεων 1 και 2 στην αδράνεια των ση­
μείων της γραμμής και της στήλης για τα δεδομένα για τη
μόρφωση στις ΗΠΑ και τη στάση στην έκτρωση φαίνεται
στον Πίνακα 4.9. Αυτές οι ποσότητες μετρούν το πόσο καλά
κάθε σημείο γραμμής και στήλης περιγράφεται από κάθε
διάσταση. Σε αυτή την περίπτωση, εφόσον η διάσταση 1 υ­
περισχύει, κάθε σημείο γραμμής και στήλης μπορεί πάρα
πολύ καλά να απεικονιστεί μόνο με την πρώτη διάσταση. Ε­
δώ απαιτούνται πάνω από δύο διαστάσεις για να παραστή­
σουν τα «προφίλ» της γραμμής/στήλης, ώστε το άθροισμα
των συμμετοχών κατά μήκος της διάστασης 1 και 2 να ισού­
ται με 1. Ωστόσο, γενικώς, όταν αναλύεται ένας μεγαλύτερος
πίνακας, ο αριθμός των απαιτούμενων διαστάσεων για να πε­
τύχουμε την καλύτερη εφαρμογή θα είναι μεγάλος και έτσι
προσπαθούμε να πετύχουμε την εφαρμογή μίας επίλυσης σε
σημαντικά λιγότερες διαστάσεις.

4. 7. Παράδειγμα: εμπιστοσύνη στις αγορές από


χώρες της Ευρωπαϊκής 'Ενωσης

Τώρα θα παρουσιάσουμε τη χρησιμότητα της CORA με ένα


περισσότερο ρεαλιστικό παράδειγμα, όπου οι διαστάσεις
της διπλής εισόδου χιαστής-κατάταξης (cross-classification)
2.54 Ανάλυση πολυμε,αβλητων δεδομένων για κοινωνικές επιστήμες

Πίνακας 5.11 Επιβαρύνσεις για τις πέντε συνιστώσες -οικονομικά


και δημογραφικά δεδομένα των χωρών

Δείκτης <Χ;1 <1;2 <Χ;3 <Χ;4 <Χ;5

Αύξηση πληθυσμού -0,86 0,39 0,32 0,09 -0,06


Προσδόκιμο ζωής 0,95 0,03 0,24 0,05 0,19
Ρυθμός βρεφικής

θνησιμότητας -0,95 -0,01 -0,21 0,20 0,13


Ρυθμός γονιμότητας -0,95 0,19 -0,01 -0,22 0,12
ΑΕΠ 0,76 0,62 -0,21 0,01 0,00

Οι τυποποιημένες τιμές για κάθε μία από τις 25 χώρες


στις πρώτες δύο συνιστώσες σχεδιάστηκαν στο Σχήμα 5.9.
Παρατηρήστε τη στενή ομοιότητα ανάμεσα σε αυτό το γρά­
φημα και στη διαμόρφωση της δισδιάστατης μετρικής MDS
για αυτά τα δεδομένα (βλέπε Σχήμα 3.12).

Η σχέση ανάμεσα στην PCA και την ανάλυση


αντιστοιχιών

Η συνήθης διαδικασία μιας PCA ξεκινά με έναν πίνακα συ­


σχέτισης. Μία εναλλακτική διαδικασία που δίνει ακριβώς τα
ίδια αποτελέσματα, είναι η (Singular Value Decomposition,
(SVD) του τυποποιημένου πίνακα δεδομένων: χ* = {.χι;}, ό­
που το Χι7, η τιμή του ατόμου (γραμμή) t στη μεταβλητή (στή­
λη) i, έχει τυποποιηθεί σε μέση τιμή μηδέν και μοναδιαία τυ­
πική απόκλιση. Αυτό μοιάζει με τη SVD του πίνακα των κα­
ταλοίπων του Pearson στην CORA που περιγράψαμε στην
Παράγραφο 4.3.
Από τη SVD, παίρνουμε τα utj (αντιστοιχούν σε γραμμές ή
άτομα) και τα vij (αντιστοιχούν στις στήλες ή τις μεταβλητές)
και τις ιδιάζουσες τιμές, ✓λj, τέτοιες ώστε:
Α νάλυοη κυpίων συνιστωσών 255

Προκύπτει ότι το τετράγωνο της ιδιάζουσας τιμής είναι λj,


ηj ιδιοτιμή του πίνακα συσχέτισης (και η διασπορά που εξη­
γείται από την j κύρια συνιστώσα), το utj είναι 1 , η τιμή για y
το άτομο t στην κύρια συνιστώσα j και η ✓ λjvij είναι ο συντε­
λεστής της τιμής της συνιστώσας της μεταβλητής i στην κύ­
ρια συνιστώσαj. Όσο για την CORA, είναι εφικτό να σχεδιά­
σουμε τις παρατηρήσεις (γραμμές) και τις μεταβλητές (στή­
λες) σε ένα μόνο διάγραμμα διπλής προβολής (bi-plot), χρη­
σιμοποιώντας τις δύο πρώτες κύριες συνιστώσες.

A!,LSlήa

FranC<J,...A!,Lslralia
1- Netheήands Z~babwe

11'1Jy Plj_kistan Bg_nin Mflawi


GJιalemala

C!l.mbodia
ο- ~ίνίa
ΕΙ Sflνador Plj_PUB New Guinea
Arge,ι,tina B"!l'il feru
C2Ιombia

Αι,ι,aπίa

C!;!ina

Cro\tla R2manla

1 1 1 1
-1 ο 2

Υ1

Σχήμα 5.9 Γράφημα των τιμών στις δύο πρώτες κύριες συνιστώσες
-οικονομικά και δημογραφικά δεδομένα
Ανάλυση πολυμεταβλητων δεδομένων για κοινωνικές επιστήμες

Η διαφορά ανάμεσα στην CORA και την PCA εντοπίζεται


σrο γεγονός ότι ξεκινούν με διαφορετικούς πίνακες. Στην
CORA υπάρχει μία συμμετρία: οι γραμμές και οι στήλες
στον Ι χ] πίνακα των καταλοίπων του Pearson έχουν την ίδια
θέση, ενώ σrο n χ p πίνακα των τυποποιημένων μεταβλητών
για την PCA, οι γραμμές αναπαριστούν τις παρατηρήσεις και
οι στήλες τις μεταβλητές.

5.8 Η :χρησιμοποίηση των τιμών των κύριων


συνιστωσών για αντικατάσταση των αρχικών
μεταβλητών

Χρησιμοποιούμε την PCA για να αντικαταστήσουμε μία με­


γαλύτερη ομάδα p μεταβλητών με μία μικρότερη ομάδα q κύ­
ριων συνιστωσών. Η πρώτη συνιστώσα, y 1, μπορεί να χρησι­
μοποιηθεί μόνη της ως μία (q=l) σύνοψη των αρχικών μετα­
βλητών, χ 1 , ... , xp, είτε για χρήση σε περαιτέρω ανάλυση είτε
ως ένας δείκτης. Πράγματι, οι συντελεστές των τιμών των συ­
νιστωσών μερικές φορές χρησιμοποιούνται για να δώσουν τι­
μές σε νέα άτομα παρατηρήσεις σε έναν τέτοιο δείκτη. Οι
πρώτες δύο συνιστώσες μπορούν να χρησιμοποιηθούν για να
σχεδιαστούν τα δεδομένα σε γράφημα (είτε κλιμακοποι­
ώντας τα ώστε var(y 1) = λ 1 , var(y 2 ) = λ 2 , όπως σrο Σχήμα 5.3
ή με συνιστώσες, 'y1 και y2τυποποιημένες με μοναδιαία δια­
σπορά όπως σrα σχήματα 5.8 και 5.9).
Η ερώτηση που προκύπτει αφορά το μέγεθος της πληρο­
φορίας που χάνεται με την αντικατάσταση των p μεταβλητών
χ από τις πρώτες q κύριες συνιστώσες ή πιο συγκεκριμένα,
πόσο καλά μπορεί η xi να
επαναδομηθεί (reconstructed) από
τις Υι Υ7 για ... , p).
(i = 1,
Στη~]lαράγραφο 5.6, οι (τυποποιημένες) κύριες συνιστώ­
σες δίνονται ως γραμμικές συναρτήσεις των (τυποποιημένων)
αρχικών μεταβλητών,

(j = ], ... , p)
Ανάλυση κυρiwν συνιστωσών 257

Αυτές οι εξισώσεις μπορούν να αντιστραφούν για να δώ­


σουν

(i = 1, ... ,p),

όπου το α;=λ/¾ είναι το φορτίο της συνιστώσας που συνα­


ντήσαμε στην Παράγραφο 5.4. Θυμηθείτε ότι αυτή η επιβά­
ρυνση είναι η συσχέτιση ανάμεσα στη Χ; και την YJ· Τώρα υ­
ποθέστε ότι προσπαθούμε να επαναδομήσουμε τη χ; χρησι­
μοποιώντας μόνο τις πρώτες δύο συνιστώσες. Η επαναδομη­
μένη τιμή είναι:

Αυτή θα βρίσκεται κοντά στη xi εάν οι συσχετίσεις ή οι ε ­


πιβαρύνσεις που απέμειναν, α;3 , ....... ,α;j, είναι όλες κοντά στο
μηδέν .
Ομοίως, μπορούμε να κρίνουμε το πόσο καλά κάθε xi αναπα­
ράγεται από τις πρώτες q συνιστώσες, με το να δούμε πόσο
κοντά είναι το communality στο ένα, όπου το communality
είναι το άθροισμα των πρώτων q τετραγωνισμένων επιβαρύν-

(ί = 1, ... , p)

σεων, έτσι ώστε για τη xi το communality να ισούται με:


Θα ξανασυναντήσουμε την έννοια του communality στη
θεωρία της παραγοντικής ανάλυσης. Είναι το τετράγωνο του
συντελεστή πολλαπλής συσχέτισης ανάμεσα στη χ 1 και τις y 1,
... , Yq .
Ο Πίνακας 5.12 δίνει το communalίty για τα δεδομένα
βαθμολογίας των μαθημάτων για μία και δύο συνιστώσες.
2.58 Ανάλυση πολυμεταβλητων δεδομένων για κοινωνικές επιατήμες

Πίνακας 5.12 Communalities για μiα και για δύο συνιστώσες για τα
δεδομένα της βαθμολογίας των μαθημάτων

Μάθ~~α Μία συνιστώσα Δύο συνιστώσες

Κελτικά 0,44 0,63


Αγγλικά 0,47 0,56
Ιστορία 0,27 0,68
Αριθμητική 0,54 0,72
Άλγεβρα 0,55 0,70
Γεωμετρία 0,46 0,58

5.9 Περισσότερα παραδείγματα και προτάσεις


για περαιτέρω εξάσκηση

Κοινωνική κινητικότητα στο Ηνωμένο Βασίλειο

Οι συσχετίσεις που αναλύονται αντλήθηκαν από τον Ridge


(1974) και βασίζονται σε πληροφορίες που προήλθαν από
713 παντρεμένους άνδρες και γυναίκες που ρωτήθηκαν σε
μια έρευνα που έγινε το 1949 από τον D.V. Glass και συνερ­
γάτες του στο Οικονομικό Πανεπιστήμιο του Λονδίνου. Οι
μεταβλητές αναφέρονται στους ερωτηθέντες, τους συζύγους
τους, τους πατέρες τους, τους πεθερούς τους και τον πρωτό­
τοκο γιο και περιγράφονται στον Πίνακα 5.13. Οι συσχετί­
σεις (οι οποίες είναι όλες θετικές) δίνονται στον Πίνακα 5.14
και οι επιβαρύνσεις για τις πρώτες έξι κύριες συνιστώσες δί­
νονται στον Πίνακα 5.15. Μπορείτε να δείτε ότι πολλές από
τις συσχετίσεις είναι μικρές και καμία από αυτές πολύ μεγά ­
λη. Ενδιαφέρον έχει να δούμε εάν υπάρχουν αναγνωρίσιμες
διαφορές ανάμεσα στις γενιές και επίσης σε ποιο βαθμό οι
τρεις μετρήσεις (επαγγελματική θέση, περαιτέρω μόρφωση
και προσόντα) μπορεί να είναι δείκτες της οικογενειακής
κατάστασης.
Α νάλvοη κυρίων συνιστωσών 259

Πίνακας 5.13 Περιγραφές των μεταβλητών της κοινωνικής κινητικό-


τητας

Μετα~Λ(]τ1 Γενιά Κωδικός Πψγeα~1


Χι HF/0 Επαγγελματική θέση του πατέρα του συζύγου

Χ2 WF/0 Επαγγελματική θέση του πατέρα της συζύγου

Χ3 2 H/FE Περαιτέρω μόρφωση του συζύγου

Χ4 2 H/Q Προσόντα του συζύγου

Χ5 2 Η/0 Επαγγελματική θέση του συζύγου

Χ5 2 W/FE Περαιτέρω μόρφωση της συζύγου

Χ7 2 W/Q Προσόντα της συζύγου

Xs 3 FB/FE Περαιτέρω μόρφωση του πρωτότοκου γιου

Χ9 3 FB/Q Προσόντα του πρωτότοκου γιου

Χ ιο 3 FB/O Επαγγελματική θέση του πρωτότοκου γιου

Πίνακας 5.14 Συσχετίσεις κατά ζεύγη (χ 100) ανάμεσα στις μετα-


βλητές της κοινωνικής κινητικότητας

ΜεταβΧητή Χι Χ2 Χ3 Χ4 Χ5 Χ5 Χ7 Xs Χ9 Χιο

Χι 100 37 23 10 43 17 13 18 8 29
Χ2 37 100 23 13 38 15 10 18 10 28
Χ3 23 23 100 53 35 28 28 32 25 29
Χ4 10 13 53 100 24 23 38 31 35 22
Χ5 43 38 35 24 100 20 14 23 11 44
Χ5 17 15 28 23 20 100 47 26 12 19
Χ7 13 10 28 38 14 47 100 21 19 16
Xs 18 18 32 31 23 26 21 100 50 44
Xg 8 10 25 35 11 12 19 50 100 33
Χιο 29 28 29 22 44 19 16 44 33 100

Οι πρώτες έξι ιδιοτιμές (εξηγούμενη διασπορά) που είναι


3,34, 1,44, 1,17, 0,89, 0,68 και 0,61, δείχνουν ότι θα πρέπει
να χρησιμοποιηθούν τρεις ή τέσσερις κύριες συνιστώσες.
Για τη συνιστώσα 1 (η οποία εξηγεί το 33% της συνολικής
διασποράς), οι επιβαρύνσεις ποικίλουν ανάμεσα στο 0,5 και
260 Ανάλυση πολυμεταβλητwv δεδομένwv για κοινωνικές επιστήμες

0,7 και αυτό δείχνει ότι αυτή μπορεί να αποτελεί μία σύνοψη
των δέκα μεταβλητών που μετρούν τη θέση (κατάσταση) της
οικογένειας.
Η δεύτερη συνιστώσα (η οποία εξηγεί το 14% της συνολι­
κής διασποράς) συγκρίνει τις μεταβλητές χ 1 , χ 2, χ 5 , και χ 10 (οι
οποίες δίνουν την επαγγελματική κατάσταση για τα διάφορα
μέλη της οικογένειας) και τις μεταβλητές χ 4, χ 7 , και χ 9 (που
σχετίζονται με τα προσόντα) με μία μικρότερη συνεισφορά
από τις μεταβλητές Χ3, χ 6 , και χ 8 (που σχετίζονται με την πε­
ραιτέρω μόρφωση).
Η τρίτη συνιστώσα (η οποία εξηγεί ένα περαιτέρω 11 %
της διασποράς) συγκρίνει τον πρωτότοκο γιο (μεταβλητές Xs,
χ 9, και χ 10) με τη μητέρα του (μεταβλητές χ 6 και χ 7 ) και πιθα­
νώς με άλλους προγόνους (οι εναπομείναντες μεταβλητές).
Η τέταρτη συνιστώσα μπορεί επίσης να ερμηνευθεί ως
μία σύγκριση ανάμεσα στους συζύγους (γυναίκες-άνδρες),
αλλά αυτό μπορεί να οδηγήσει τα δεδομένα πέρα από τα ό­
ριά τους, καθώς η ιδιοτιμή για αυτή τη συνιστώσα είναι μι­
κρότερη από τη μονάδα και οι επόμενες συνιστώσες γίνονται
λιγότερο αξιόπιστες.
Εν κατακλείδι, η δομή της συσχέτισης δείχνει ότι και οι
δέκα μεταβλητές έχουν κάτι κοινό μεταξύ τους το οποίο μπο­
ρεί να αναφέρεται ως οικογενειακή κατάσταση, αλλά και ότι
υπάρχουν διαφορές ανάμεσα στην επαγγελματική κατάστα­
ση, την περαιτέρω μόρφωση και τα προσόντα και σε ένα μι­
κρότερο βαθμό ότι υπάρχουν διαφορές ανάμεσα στις γενιές.
Θα επανέλθουμε σ' αυτό το παράδειγμα στο Κεφάλαιο 6.
Α νάλvση κυρίων συνιστωσών 2.61

Πίνακας 5.15 Επιβαρύνσεις για τις πρώτες έξι συνιστώσες -δεδομέ-


να για την κοινωνική κινητικότητα

Μετα~λψή

αiι

αiz

α; 3
.
α;4

a;s

α;6

Χι HF/O 0,50 0,56 0,15 0,07 0,06 0,61


Χ2 WF/O 0,48 0,52 0,08 -0,01 0,60 -0,34
Χ3 H/FE 0,68 -0,13 0,11 -0,51 -0,09 -0,06
Χ4 H/Q 0,62 -0,40 0,06 -0,50 0,07 0,03
Χ5 Η/O 0,62 0,49 0,07 -0,13 -0,34 -0,08
Χ5 W/FE 0,51 -0,24 0,52 0,44 -0,07 -0,15
Χ7 W/Q 0,51 -0,41 0,50 0,21 0,06 0,11
ΧΒ FB/FE 0,65 -0,19 -0,44 0,27 0,03 -0,03
Xg FB/Q 0,52 -0,35 -0,56 0,11 0,23 0,20
Χιο FB/O 0,65 0,22 -0,33 0,21 -0,35 -0,20
Διασπορά 3,34 1,44 1,17 0,89 0,68 0,62
<;Ο εξηγήσιμης διασποράς 33,42 14,37 11,73 8,90 6,82 6,16

Συνθήκες μόρφωσης

Ο πίνακας συσχέτισης των εννέα μεταβλητών που αφορούν


τις συνθήκες και τα αποτελέσματα ενός διαγωνίσματος που
έγινε το 1964 και το 1968 σε κορίτσια που βρίσκονται στο
τέταρτο έτος της δευτεροβάθμιας εκπαίδευσης, έχει ήδη α­
ναλυθεί με την μέθοδο ανάλυση κατά συστάδες (cluster
analysis) στο Κεφάλαιο 2. Εάν πραγματοποιήσετε μία PCA
γι' αυτά τα δεδομένα, θα βρείτε ότι υπάρχει μία κυρίαρχη
πρώτη συνιστώσα που υπολογίζεται για το 42 ,6% της συνο­
λικής μεταβλητότητας. Όταν εξετάσετε το γράφημα scree,
θα παρατηρήσετε έναν «αγκώνα» στη δεύτερη συνιστώσα
που δείχνει ότι μόνο η πρώτη συνιστώσα είναι απαραίτητη.
Αν και μόνο οι δύο πρώτε ς συνιστώσες έχουν ιδιοτιμές με ­
γαλύτερες από τη μονάδα, οι συνιστώσες 3 και 4 έχουν ιδι­
οτιμές κοντά στη μονάδα και σύμφωνα με το κριτήριο του
Jolliffe, οι πρώτες πέντε συνιστώσες θα πρέπει να εξετα-
Ανάλυση πολυμααβλητων δεδομένων για κοινωνικές επιστήμες

στούν. Οι συνιστώσες 2, 3 και 4 έχουν περίπου ίσες ιδιοτι­


μές και εξηγούν το 12,4%, 11,1% και 9,1%της συνολικής δι­
ασποράς αντίστοιχα. Επομένως δεν είναι ξεκάθαρο πόσες
συνιστώσες θα πρέπει να λάβουμε υπόψη. Στο παράδειγμα
αυτό εξετάστηκαν οι πρώτες τρεις συνιστώσες, αλλά θα
πρέπει να εξετάσετε και την τέταρτη για να δείτε εάν προ­
σφέρει περισσότερη πληροφορία.
Θα βρείτε ότι η πρώτη συνιστώσα είναι θετικά συσχετι­
σμένη με όλες τις μεταβλητές, αντικατοπτρίζοντας τις κύριες
θετικές συσχετίσεις στον πίνακα συσχέτισης (Πίνακας 2.17).
Επομένως, η πρώτη συνιστώσα μπορεί να ερμηνευθεί ως έ­
νας γενικός δείκτης των συνθηκών ενός κοριτσιού και στο
σχολείο και στο σπίτι. Οι συνιστώσες 2 και 3 δεν έχουν μία
ξεκάθαρη ερμηνεία. Ωστόσο, εάν κοιτάξουμε κατά ζεύγη τα
γραφήματα των επιβαρύνσεων των συνιστωσών, παρατηρού­
με ότι προκύπτουν κάποιοι σχηματισμοί. Τα Σχήματα 5.10
και 5.11 δείχνουν τα γραφήματα των επιβαρύνσεων της συνι­
στώσας 1 έναντι της συνιστώσας 2 και της συνιστώσας 1 ένα­
ντι της συνιστώσας 3, αντίστοιχα. Από τα Σχήματα 5.10 και
5.11, μπορείτε να δείτε ότι οι επιβαρύνσεις για τις μεταβλη­
τές χ 1 και χ 7 (γονικές συνθήκες στα έτη 1964 και 1968) είναι
κοντά για όλες τις πρώτες τρεις κύριες συνιστώσες. Π αρό­
μοια, οι μεταβλητές χ 5, χ 9, και χ 6 (οι δύο τιμές των
διαγωνισμάτων και ο τύπος του σχολείου) έχουν περίπου ίσες
επιβαρύνσεις στις πρώτες τρεις κύριες συνιστώσες, αλλά οι ε ­
ναπομείναντες μεταβλητές δεν μοιάζουν μεταξύ τους ή και
με τις δύο ομάδες των παραπάνω μεταβλητών. Συγκρίνετε τα
Σχήματα 5.10, 5.11 και το Σχήμα 2. 17, το οποίο δείχνει τα α­
ποτελέσματα της ανάλυσης κατά συστάδες. Θα δείτε ότι τα
αποτελέσματα της PCA τείνουν να επιβεβαιώσουν την ανάλυ­
ση κατά συστάδες γι' αυτά τα δεδομένα. Αυτό απεικονίζει το
πόσο οι διαφορετικές μέθοδοι σύνοψης ενός πίνακα συσχέτι­
σης μπορεί να ενδυναμώσουν η μία την άλλη.
Ανάλυση κυρίων συν~σrωσών

Χ3 -"

-1

-1

Σχήμα 5.10 Γράφημα επιβαρύνσεων των δύο πρώτων συνιστωσών


-δεδομένα για τις συνθήκες μόρφωσης

-" Χ4

-" Χ2 -" Χ3

• χs
Χβ-" -" Χ9
a;l
-1
-" ΧΒ

Χ7.... Χ1

-1

Σχήμα 5.11 Γράφημα επιβαρύνσεων της συνιστώσας 1 και της συνι­


στώσας 3 -δεδομένα για τις συνθήκες μόρφωσης
Ανάλυση nολvμεταβλψwν δεδομένων για κοzvωvικές επιστήμες

Τηλεθέαση στο Ηνωμένο Βασίλειο

Ένα δείγμα 7.000 ενηλίκων Άγγλων ρωτήθηκε εάν «πράγμα­


τι τους άρεσε που είδαν» ένα σύνολο δέκα τηλεοπτικών προ­
γραμμάτων (Ehrenberg 1977). Οι κατά ζεύγη συσχετίσεις α­
νάμεσα στις δέκα μεταβλητές που μετρούν «ότι τους άρεσε
που είδαν» τα προγράμματα παρουσιάζεται στον Πίνακα
5.16. Τα προγράμματα εμπίπτουν σε δύο ευρύτερες κατηγο­
ρίες: τα αθλητικά προγράμματα (World of Sport, Match of the
Day, Grandstand, Professional Boxing και Rugby Special) και τα
ενημερωτικά προγράμματα για την επικαιρότητα (24 Hours,
Panorama, This Week, Today και Line-Up).
Το scree γράφημα από την PCA αυτών των δεδομένων
φαίνεται στο Σχήμα 5.12. Από αυτό το γράφημα, μπορείτε να
δείτε έναν «αγκώνα» στην τρίτη συνιστώσα. Επιπλέον, μόνο
οι ιδιοτιμές των πρώτων δύο συνιστωσών είναι μεγαλύτερες
από τη μονάδα. Θα πρέπει επίσης να εξετάσετε το μέγεθος
της διασποράς που εξηγείται από κάθε συνιστώσα: η πρώτη
συνιστώσα εξηγεί σχεδόν το 32% της συνολικής διασποράς,
ενώ οι δύο πρώτες συνιστώσες εξηγούν το 50% της διασπο­
ράς . Η τρίτη υπολογίζεται μόνο για ένα επιπλέον 9% της δι­
ασποράς που εξηγείται . Όλα αυτά μας οδηγούν στο να επι­
λέξουμε τις δύο πρώτες συνιστώσες για να συνοψίσουμε τα
δεδομένα.
Οι επιβαρύνσεις των δύο πρώτων συνιστωσών παρουσιά­
ζονται στο Σχήμα 5.13. Μπορείτε να δείτε ότι όλες οι μετα­
βλητές είναι θετικά συσχετισμένες με την πρώτη συνιστώσα .
Η πρώτη συνιστώσα επομένως μπορεί να ερμηνευθεί ως ένα
γενικό μέτρο για το πόσο τους αρέσει να βλέπουν τηλεόραση.
Η δεύτερη συνιστώσα έχει ένα μείγμα θετικών και αρνητικών
επιβαρύνσεων . Εάν προστρέξετε στην περιγραφή των προ­
γραμμάτων που δίνεται παραπάνω, θα βρείτε ότι τα προ­
γράμματα επίκαιρων θεμάτων έχουν θετικές επιβαρύνσεις
στη δεύτερη συνιστώσα, ενώ τα αθλητικά προγράμματα έ­
χουν αρνητικές επιβαρύνσεις . Έτσι, αυτή η συνιστώσα συ-
Ανάλυση κυρίων συνιστωσών 2.65

γκρίνει την προτίμηση σε αυτούς τους δύο διαφορετικούς τύ-


πους προγραμμάτων.

Πίνακας 5.16 Συσχετίσεις κατά ζεύγη ανάμεσα στην προτίμηση πα-


pακολούθησης τηλεόρασης και δέκα τηλεοπτικών προγραμμάτων

WoS MoD GrS PrB RgS 24Η Pan TliW Τσα [πΟ

World ofSport 1,00 0,58 0,62 0,51 0,30 0, 14 0,19 0,15 0,09 0,08
Match of the Day 0,58 1,00 0,59 0,47 0,33 0, 12 0,13 0,08 0,04 0,05
Grandstand 0,62 0,59 1,00 0,47 0,34 0, 14 0,18 0,13 0,07 0,08
Prof, Boxing 0,5 1 0,47 0,47 1,00 0,31 0, 12 0, 17 0,11 0,07 0,09
Rugby Special 0,30 0,33 0,34 0,31 1,00 0,12 0,15 0,06 0,05 0,10
24 Hours 0,14 0,12 0,14 0,12 0,12 1,00 0,52 0,39 0,24 0,27
Panorama 0,19 0, 13 0,18 0,17 0,15 0,52 1,00 0,35 0,20 0,20
This Week 0,14 0,08 0,13 0,11 0,06 0,39 0,35 1,00 0,27 0,19
Today 0,09 0,04 0,07 0,07 0,05 0,24 0,20 0,27 1,00 0,15
Line- UE 0,08 0,05 0,08 0,09 0,10 0,27 0,20 0,19 0,15 1,00

2 3 4 5 7 β 9 10
j

Σχήμα 5 .12 Γράφημα scree των ιδιοτιμών έναντι του αριθμού των συ­
νιστωσών -δεδομένα για την τηλεθέαση
266 Ανάλυση nολυμι:ιαβλητωv δεδομένων για κοινωνικές επιστήμες

"" 24Hours
This Week .., .., Panorama
"" Today _
"" Line-Up

-1
"" Rugby
.., Boxing
Grandstan~ World of Sport
"" Match of Day

-1

Σχήμα 5.13 Γράφημα των επιβαρύνσεων των δύο πρώτων συνιστωσών


-δεδομένα γ~α την τηλεθέαση

5.10 Περαιτέρω μελέτη

Basilevsky, Α. (1994). Statistical Factor Analysis and Related


Methods. New York: Wiley
Jolliffe, 1. Τ. (1986). Principal Components Analysis. New
Υ ork: Springer - Verlag
ΚΕΦΆΛΑΙΟ 6

Παραγοντική Ανάλυση

6.1 Εισαγωγή στα μοντέλα λανθανουσών


μεταβλητών

Η παραγοντική ανάλυση (Factor Analysis - FA) ανήκει σε μία


οικογένεια μεθόδων, οι οποίες σχετίζονται με αυτό που ονο­
μάζεται λανθάνουσες μεταβλητές. Συχνά, ιδιαίτερα στις έρευνες
των κοινωνικών επιστημών, δεν μπορούμε ευθέως να μετρή­
σουμε τις μεταβλητές που μας ενδιαφέρουν περισσότερο.
Παραδείγματα με τέτοιο περιεχόμενο είναι η νοημοσύνη, η
πολιτική στάση (αριστερή, μετριοπαθής ή δεξιά) και η κοι­
νωνικοοικονομική θέση. Αν και χρησιμοποιούμε αυτές τις έν­
νοιες στην κοινωνική επιστήμη, όπως όλες τις άλλες μετα­
βλητές, αυτές διαφέρουν στο ότι δεν μπορούν να παρατηρη­
θούν και γι' αυτό ονομάζονται λανθάνουσες. Σε μερικές περι­
πτώσεις, μία έννοια μπορεί να αντιπροσωπευθεί από μία μό­
νο λανθάνουσα μεταβλητή, αλλά συχνά από τη φύση τους εί­
ναι πολυδιάστατες και έτσι περιλαμβάνουν περισσότερες α­
πό μία λανθάνουσες μεταβλητές . Υποθέστε ότι υπάρχουν q
λανθάνουσες μεταβλητές που συμβολίζονται ως y 1, y 2, ... , Yq·
Αυτές οι λανθάνουσες μεταβλητές γενικώς ονομάζονται παρά­
γοντες (πολλοί συγγραφείς χρησιμοποιούν το f αντί του y για
να προσδιορίσουν τους παράγοντες). Οι μέθοδοι των λανθα­
νουσών μεταβλητών, εκ των οποίων η παραγοντική ανάλυση
είναι η παλαιότερη και η πιο διαδεδομένη, αποτελούν το α­
ντικείμενο αυτού και των επόμενων τριών κεφαλαίων.
Υπάρχει μία στενή σχέση ανάμεσα στην παραγοντική α­
νάλυση και την ανάλυση κύριων συνιστωσών. Στην πραγμα-
268 Ανάλυση πο,ιυμεταβλητων δεδομένων για κοινωνικές επιστήμες

τικότητα, είναι σύνηθες να θεωρείται η PCA (Ανάλυση Κύρι­


ων Συνιστωσών) ως μία μέθοδος παραγοντικής ανάλυσης.
Μερικά βιβλία (για παράδειγμα, Basilevsky 1994 και το λο­
γισμικό πακέτο SPSS) επεξεργάζονται και τις δύο μεθόδους
μέσα στο ίδιο πλαίσιο. Θα εξηγήσουμε γιατί γίνεται αυτό
στο τέλος του κεφαλαίου, αλλά σ' αυτό το στάδιο για δύο λό­
γους θα ήταν προτιμότερο να τις θεωρήσουμε διαφορετικές.
Έχουμε παρουσιάσει την PCA ως μία περιγραφική μέθοδο
που ενδιαφέρεται για τη σύνοψη ενός πίνακα δεδομένων με
έναν τρόπο που να εκφράζεται η δομή του σε ένα μικρό α­
ριθμό διαστάσεων. Η παραγοντική ανάλυση, από την άλλη,
είναι μία τεχνική βασισμένη σε ένα μοντέλο. Δηλαδή, περι­
λαμβάνει τις υποθέσεις για τις από κοινού κατανομές πάνω
σε κάποιο σχετικό πληθυσμό των εμπλεκομένων μεταβλη­
τών. Αυτό μας επιτρέπει να διεξάγουμε συμπεράσματα για
τον πληθυσμό χρησιμοποιώντας τις έννοιες της καλής εφαρ­
μογής, της στατιστικής σημασίας και της ακρίβειας της εκτί­
μησης. Όπως θα δούμε αργότερα, συνδέουμε τις παρατηρή­
σιμες με τις μη παρατηρήσιμες μεταβλητές με ένα μοντέλο
πιθανοτήτων.
Σε αυτό το σημείο τεκμηριώνεται η μετάβαση από τις πε­
ριγραφικές μεθόδους των προηγούμενων κεφαλαίων στις βα­
σισμένες σε μοντέλα μεθόδους που ακολουθούν.
Ο δεύτερος λόγος, για να δοθεί έμφαση στη διαφορά με­
ταξύ της PCA και της παραγοντικής ανάλυσης, είναι το ότι
θέλουμε να υπογραμμίσουμε την ισχυρή σύνδεση μεταξύ της
παραγοντικής ανάλυσης και των ά.\λων μεθόδων λανθανου­
σών μεταβλητών που περιγράφονται στα επόμενα τρία κεφά­
λαια . Παραδοσιακά, το μοντέλο λανθανουσών χαρακτηριστι­
κών (που είναι η παραγοντική ανάλυση για τα κατηγορικά
δεδομένα) και η ανάλυση λανθανουσών ομάδων έχουν αντι­
μετωπιστεί χωριστά από την παραγοντική ανάλυση. Η ουσι­
αστική τους ενότητα έχει παραγκωνιστεί (κρυφτεί) με τη
χρήση διαφορετικού συμβολισμού και με τις πρακτικές στις
διαφορετικές εκδοχές της επιστημονικής κουλτούρας στις ο-
Παpαγοντικ·ή Ανάλυση

ποίες έχουν χρησιμοποιηθεί. Διαφέρουν στο επίπεδο της μέ­


τρησης που χρησιμοποιείται για τις σχετικές μεταβλητές, αλ­
λά μοιράζονται μια κοινή βάση ερμηνείας, της οποίας τη ση­
μασία θα επιδιώξουμε να τονίσουμε.
Προκειμένου να μετρηθεί η λανθάνουσα μεταβλητή που
μας ενδιαφέρει, συχνά συλλέγουμε παρατηρήσιμες μεταβλη­
τές, οι οποίες διαισθανόμαστε ότι είναι πιθανό να είναι δεί­
κτες της λανθάνουσας μεταβλητής (ή μεταβλητών). Υποθέστε
ότι συλλέγουμε p παρατηρήσιμες μεταβλητές, οι οποίες συμ­
βολίζονται με χ 1 , χ 2, ... Xp. Τα χ επίσης ονομάζονται δείκτες,
στοιχεία ή παρατηρούμενες μεταβλητές (manifest variables).

Παραδείγματα προβλημάτων που περιλαμβάνουν


λανθάνουσες και παρατηρούμενες μεταβλητές
(manifest variables)

i) Υπάρχει μεγάλο ενδιαφέρον για τη μέτρηση της νοημο­


σύνης. Αυτό θεωρείται ότι είναι ένα σημαντικό χαρακτη­
ριστικό των ατόμων σε μεγαλύτερη ή μικρότερη έκταση.
Εντούτοις, δεν είναι όπως το βάρος ή η ηλικία, για τα ο­
ποία υπάρχει ένα έτοιμο όργανο μέτρησης. Η νοημοσύ­
νη είναι μια κατασκευή, δηλαδή είναι μια έννοια που
βρίσκουμε χρήσιμη και σημαντική, για την οποία όμως
δεν υπάρχει απτή αίσθηση όπως υπάρχει για το βάρος.
Μπορούμε, ωστόσο, να την εισάγουμε σε ένα μαθηματι­
κό μοντέλο και να τη μεταχειριστούμε όπως οποιαδήπο­
τε άλλη μεταβλητή . Η νοημοσύνη είναι ένα καλό παρά­
δειγμα λανθάνουσας μεταβλητής. Οι μεταβλητές-δείκτες
σε αυτήν την περίπτωση είναι ποσότητες που θεωρού­
νται ότι επηρεάζονται από τη λανθάνουσα μεταβλητή.
Αυτές είναι συνήθως τα αποτελέσματα που λαμβάνονται
σε μία σειρά δοκιμών που επιλέγονται επειδή θεωρείται
ότι οι ευφυέστεροι άνθρωποι θα αποδώσουν καλύτερα .
Μερικές μεταβλητές μπορεί να είναι λεκτικές ή αριθμη­
τικές, αλλά μπορεί να περιλαμβάνουν χωροταξικές α-
270 Ανάλυση πολυμεταβλητων δεδομένων για κοινωνικές επιιπrrμες

σκήσεις με σκοπό να εξετάσουν τη δυνατότητα να δουν


σχηματισμούς. Εάν όλες οι μεταβλητές απαιτούσαν το ί­
διο είδος βασικής διανοητικής δυνατότητας, θα αναμέ­
ναμε τα αποτελέσματα στις μεταβλητές να είναι θετικά
συσχετισμένα . Το πρόβλημα είναι να δούμε εάν αυτή η
συσχέτιση μπορεί να οφείλεται σε μία μόνο λανθάνουσα
μεταβλητή και σε αυτή την περίπτωση, πώς μπορούμε
να αποφασίσουμε πού θα τοποθετηθούν τα άτομα στη
λανθάνουσα κλίμακα.

ii) Παρόμοια περίπτωση με αυτήν της νοημοσύνης αποτε ­


λεί η μέτρηση της πολιτικής στάσης . Περιγράφουμε τα
άτομα ως αριστερά ή δεξιά και μερικά, για παράδειγ­
μα, ως πιο δεξιά από άλλα. Σε αυτό το είδος αναφοράς
υπονοείται η ιδέα ότι υπάρχει μια κλίμακα, στην οποί­
α τα άτομα μπορούν να βρεθούν να εκτείνονται από τη
μία στην ακραία αριστερά πλευρά και από την άλλη
στην ακραία δεξιά. Αυτή είναι μια λανθάνουσα κλίμα­
κα για την κατασκευή της οποίας απαιτούνται κατάλ­
ληλοι δείκτες . Αυτοί μπορούν να προέλθουν από μια
κοινωνική έρευνα στην οποία οι ανταποκρινόμενοι θα
ερωτούνταν για τις τοποθετήσεις τους σε μια σειρά πο­
λιτικών ζητημάτων, για παράδειγμα, την ιδιωτική υγει­
ονομική περίθαλψη, την ιδιωτική εκπαίδευση και τα
συνδικάτα.

iii) Προκειμένου να μετρηθεί μια λανθάνουσα μεταβλητή,


όπως η κοινωνικοοικονομική θέση μιας οικογένειας,
παρόμοια μπορούμε να συλλέξουμε τις πληροφορίε ς
για το οικογενειακό εισόδημα, τα επαγγέλματα και τα
επίπεδα μόρφωσης των μελών της οικογένειας .

Σε κάθε ένα από αυτά τα παραδείγματα, έχουμε χρησιμο­


ποιήσει τη διαίσθησή μας για τη λανθάνουσα μεταβλητή, για
την οποία ενδιαφερόμαστε να προσδιορίσουμε μερικές πα­
ρατηρούμενες μεταβλητές που αναμένουμε ότι θα αποκαλύ-
Παραγοντική Ανάλυση 271

ψουν κάτι για την υπονοούμενη λανθάνουσα μεταβλητή.


Στην πραγματικότητα, επειδή ήδη έχουμε κάποια ιδέα για το
ποιες είναι οι λανθάνουσες μεταβλητές-κλειδιά, ψάχνουμε
για τις παρατηρούμενες μεταβλητές που θα χρησίμευαν ως
δείκτες. Μερικές φορές, προχωράμε αντίθετα. Εάν, για πα­
ράδειγμα, πραγματοποιούμε μια μεγάλη έρευνα με ένα γενι­
κό σκοπό, μπορεί να αναρωτηθούμε εάν ο μεγάλος αριθμός
παρατηρούμενων διαστάσεων που αντιπροσωπεύεται, ίσως,
από 50 ερωτήσεις, θα μπορούσε να μειωθεί σε ένα μικρό α­
ριθμό διαστάσεων χωρίς σημαντική απώλεια πληροφοριών.
Η δεύτερη προσέγγιση είναι ουσιαστικά αυτή που ακολου­
θούμε όταν χρησιμοποιούμε την PCA. Στην πράξη, η πραγ­
ματικότητα βρίσκεται συνήθως κάπου μεταξύ αυτών των δύο
άκρων. Η έρευνα μπορεί να είχε παρακινηθεί από τη διάθε­
ση να ερευνηθεί η ύπαρξη μερικών λανθανουσών μεταβλη­
τών, αλλά επιθυμούμε να διεξάγουμε την έρευνά μας με μία
αρκετά ανοικτή διαδικασία, ώστε να συλλεχθούν τα απροσ­
δόκητα χαρακτηριστικά.

Μοντέλα Λανθανουσών Μεταβλητών

Τα μοντέλα λανθανουσών μεταβλητών συνδέονται στενά


με το τυποποιημένο μοντέλο παλινδρόμησης. Επομένως,
μπορεί να είναι χρήσιμο να περιγράψουμε την κεντρική ιδέα
της παραγοντικής ανάλυσης με όρους της ανάλυσης παλιν­
δρόμησης. Ένα μοντέλο παλινδρόμησης εκφράζει τη σχέση
μεταξύ μιας εξαρτημένης μεταβλητής και μιας ή περισσοτέ­
ρων ανεξάρτητων ή μεταβλητών παλινδρόμησης. Στην παρα­
γοντική ανάλυση, η σχέση παλινδρόμησης υφίσταται μεταξύ
μιας παρατηρούμενης μεταβλητής και των λανθανουσών με­
ταβλητών . Και στις δύο περιπτώσεις, προσθέτουμε τις υποθέ­
σεις της κατανομής σχετικά με τις σχέσεις των υπολοίπων ή
του σφάλματος που μας επιτρέπουν να εξάγουμε τα συμπερά­
σματα . Η ουσία του προβλήματος που πρέπει η παραγοντική
ανάλυση ή άλλες αναλύσεις λανθανουσών μεταβλητών είναι
Ανάλυση πολvμcιαβλψwν δεδομένwν για κοινωvικ{ς επιστήμες

αυτή της αναστροφής των σχέσεων της παλινδρόμησης για να


μας δώσει τις λανθάνουσες μεταβλητές όταν δίνονται οι πα­
ρατηρούμενες μεταβλητές. Δεδομένου ότι ποτέ δεν μπορούμε
να παρατηρήσουμε τις λανθάνουσες μεταβλητές, μπορούμε
πάντα μόνο έμμεσα να μαθαίνουμε γι' αυτή τη σχέση.
Διάφορες, παρατηρούμενες μεταβλητές, συνήθως θα ε ­
ξαρτώνται από την ίδια λανθάνουσα μεταβλητή και αυτή η ε ­
ξάρτηση θα προκαλεί μία συσχέτιση μεταξύ τους. Πράγμα­
τι, η ύπαρξη μιας συσχέτισης μεταξύ δύο δεικτών μπορεί να
ληφθεί ως στοιχείο ύπαρξης μιας κοινής πηγής επιρροής. Για
όσο παραμένει οποιαδήποτε συσχέτιση, μπορούμε επομένως
να υποψιαζόμαστε την ύπαρξη μιας ακόμα κοινής πηγής επιρ­
ροής. Ο στόχος μιας ανάλυσης λανθανουσών μεταβλητών είναι
να καθοριστεί εάν οι εξαρτήσεις μεταξύ των παρατηρούμενων
μεταβλητών μπορούν να εξηγηθούν από ένα μικρό αριθμό με­
ταβλητών. Όπως παρατηρήσαμε παραπάνω, τα μοντέλα λαν­
θανουσών μεταβλητών μπορούν να χρησιμοποιηθούν είτε με έ­
να διερευνητικό τρόπο για να προσδιοριστούν οι λανθάνουσες
μεταβλητές που κρύβονται κάτω από ένα σύνολο στοιχείων εί­
τε με έναν επικυρωτικό τρόπο για να εξεταστεί εάν ένα σύνολο
μεταβλητών σχεδιάστηκε για να μετρήσει συγκεκριμένες έννοι­
ες πράγματι αποκαλύπτει την υποτιθέμενη δομή.
Υπάρχουν διάφοροι τύποι μοντέλων λανθανουσών μεταβλη­
τών. Αυτά τα μοντέλα διακρίνονται από το επίπεδο μέτρησης
των παρατηρούμενων μεταβλητών και των υποθέσεων που γί­
νονται για το επίπεδο μέτρησης των λανθανουσών μεταβλητών.
Ο Πίνακας 6.1 παρουσιάζει μια ταξινόμηση των μοντέλων λαν­
θανουσών μεταβλητών.
Αυτός ο πίνακας δεν εξαντλεί τις δυνατότητες επειδή, για
παράδειγμα, οι παρατηρούμενες μεταβλητές μπορεί να είναι έ­
να μίγμα μετρικών και κατηγορικών μεταβλητών. Εντούτοις,
αυτή η ταξινόμηση είναι ικανοποιητική για τους σκοπούς αυ­
τού του βιβλίου.
Αρχίζουμε, σε αυτό το κεφάλαιο, με μια συζήτηση για την
παραγοντική ανάλυση, η όποια είναι μια κατάλληλη τεχνική ό-
Παραγοντ,κ:ή Ανάλυση 273

ταν όλες οι παρατηρήσιμες μεταβλητές μετριούνται σε μια με­


τρική (διαστήματος ή αναλογίας) κλίμακα. Το παραγοντικό
μοντέλο υποθέτει ότι οι λανθάνουσες μεταβλητές είναι επίσης
μετρικές.

Πίνακας 6.1 Ταξινόμηση των μοντέλων λανθανουσών μεταβλητών

Παρατηρήσιμες μεταβλητlς (χ)


Μετρικές Κmηγορικές

Λανθάνουσες μεταβλητές (y) (διαστήματος/ αναλογίας) (ονομαστικές / διmεταyμένες)


Μετρικές (Metrical interνaVratio Παραγοντική Ανάλυση Ανάλυση λανθανουσών
(διαστήματος/ αναλογίας) (Factor analysis) χαρακτηριστικών
(Latent trait analysis)
Κατηγορικές (Categorical nominaVordinal Ανάλυση λανθανουσών ομάδων
(ονομαστικές / διmεταγμένες) (Latent class analysis)
Ανάλυση λανθάνοντος
προφίλ (Latent profile analysis)

6.2 Το γραμμικό μοντέλο με ένα παράγοντα

Το πιο απλό παραγοντικό μοντέλο είναι αυτό που περιλαμ­


βάνει μόνο έναν παράγοντα. Ο Charles Spearman που πρώ­
τος παρουσίασε την παραγοντική ανάλυση (Spearman,
1904), εισήγαγε αυτό το μοντέλο στη μελέτη της ανθρώπινης
νοημοσύνης . Για μάλλον ειδικούς λόγους που συνδέονται με
αυτήν την ιδιαίτερη εφαρμογή, αναφέρθηκε σε αυτήν ως ένα
μοντέλο δύο παραγόντων, αλλά η χρήση αυτή έχει εγκαταλει­
φθεί από καιρό.
Εισάγουμε το μοντέλο με τη βοήθεια ενός πρακτικού πα­
ραδείγματος που διαμορφώνει έτσι μία γέφυρα μεταξύ αυ­
τού με το οποίο είμαστε εξοικειωμένοι και αυτού που είναι
καινούργιο. Αυτή θα χρησιμεύσει ώστε να δείξουμε ότι ένα
μοντέλο παραγοντικής ανάλυσης είναι απλώς ένα σύνολο μο­
ντέλων παλινδρόμησης στο οποίο μερικές από τις μεταβλη­
τές (οι λανθάνουσες μεταβλητές) δεν παρατηρούνται. Με την
επανάληψη του επιχειρήματος της τελευταίας ενότητας σε
συνάρτηση με μια ειδική περίπτωση, οι κεντρικές ιδέες θα
πρέπει να έχουν καταστεί ξεκάθαρες.
274 Ανάλυση πολυμααβλητων δεδομένων γ,α κοινωνικές επιστήμες

Η παραγοντική ανάλυση έχει ως στόχο να εξηγήσει τους


συσχετισμούς μεταξύ ενός συνόλου παρατηρούμενων μετα­
βλητών. Τέτοιοι συσχετισμοί είναι συχνά πλασματικοί, με
την έννοια ότι δεν υπάρχει καμία άμεση αιτιώδης συνάφει­
α μεταξύ των σχετικών μεταβλητών. Αυτές προκύπτουν με ­
ρικές φορές επειδή οι εν λόγω μεταβλητές έχουν μια κοινή
εξάρτηση σε μία ή περισσότερες άλλες μεταβλητές. Το γε­
γονός, π.χ. ότι το μέγεθος των ποδιών των παιδιών συσχε­
τίζεται θετικά με τη δυνατότητά τους στο γράψιμο δεν ση­
μαίνει ότι τα μεγάλα πόδια βοηθούν το παιδί να γράφει κα­
λύτερα. Ο συσχετισμός είναι, μάλλον, μια τυχαία συνέπεια
του γεγονότος ότι και οι δύο συσχετίζονται με την ηλικία
-όσο μεγαλύτερο είναι το παιδί, τόσο μεγαλύτερα είναι τα
πόδια του, ενώ γράφει και καλύτερα. Όταν κάποιος βρί­
σκει τέτοιους συσχετισμούς μεταξύ των μεταβλητών, είναι
σημαντικό να ερευνήσει εάν μπορούν να εξηγηθούν από
μια κοινή εξάρτηση σε μερικές άλλες μεταβλητές.
Σε μερικές περιπτώσεις μπορεί να υπάρχει ένας προφα­
νής υποψήφιος για το ρόλο της «άλλης μεταβλητής». Υπο­
θέστε, για παράδειγμα, ότι εξετάζουμε τις εβδομαδιαίες
οικογενειακές δαπάνες για ένα μεγάλο δείγμα οικογενειών
σε ποικίλα πράγματα: φαγητό, ταξίδια, ψυχαγωγία, ενδύ­
ματα κ.λπ. Υποθέστε επίσης ότι διαπιστώνουμε ότι οι συ ­
σχετισμοί (μεταξύ των ζευγαριών των αγορών) είναι θετι­
κοί. Δεν θα ήταν αξιόπιστο να θεωρήσουμε ότι τα υψηλά έ­
ξοδα, για ενδύματα, π . χ. προκαλούν υψηλά έξοδα για ταξί­
δια. Φαίνεται πιο εύλογο να υποτεθεί ότι τα υψηλά έξοδα
σε οποιοιδήποτε από αυτά είναι μια συνέπεια διάθεσης ε­
νός υψηλού εισοδήματος. Για να ερευνήσουμε αυτή την υ­
πόθεση, θα λάβουμε περαιτέρω στοιχεία όσον αφορά στα
εισοδήματα κάθε οικογένειας. Αυτό θα μας επέτρεπε να
δούμε εάν το μέγεθος κάθε δαπάνης αφορούσε το συνολι­
κό εισόδημα και σε αυτή την περίπτωση, εάν αυτή η σχέ­
ση εξηγεί πλήρως τους συσχετισμούς μεταξύ των δαπανών.
Π ώς να το ερευνήσουμε αυτό εμπειρικά; Ένας τρόπος
Παραγοντική Ανάλυση 2.75

θα ήταν να διευκρινίσουμε πώς κάθε δαπάνη μπορεί να


σχετίζεται με το εισόδημα. Για να πάρουμε μια ιδέα για το
πώς μπορούμε να το κάνουμε αυτό, θα σχεδιάσουμε σε
διάγραμμα τις δαπάνες για τα τρόφιμα με το εισόδημα. Υ­
ποθέστε ότι προέκυψε κατά προσέγγιση να είναι γραμμικό
και ότι ένα παρόμοιο αποτέλεσμα λήφθηκε για κάθε άλλη
δαπάνη. Θα μπορούσαμε τότε να εφαρμόσουμε απλές πα­
λινδρομήσεις της μορφής:

(ί = ], 2, .. .) (6.1)
όπου το C;, είναι η κατανάλωση ή οι δαπάνες για το κάθε ί
στοιχείο, Ι είναι το εισόδημα της οικογένειας, α; και β; η στα­
θερά και η κλίση, αντίστοιχα, της παλινδρόμησης και e; μία
τυχαία συνιστώσα ή το κατάλοιπο, συγκεκριμένο στο C; με
μηδενικό μέσο, ανεξάρτητο του 1, το οποίο εξηγεί την υπο­
λειπόμενη διακύμανση για τη γραμμή. Εάν διαπιστώναμε ό­
τι αυτό το μοντέλο ήταν κατάλληλο για όλα τα στοιχεία των
δαπανών και ότι τα κατάλοιπα e; ήταν ασυσχέτιστα μεταξύ
τους, τότε θα είχαμε δείξει ότι το εισόδημα θα ήταν ο μόνος
ανιχνεύσιμος προσδιοριστικός παράγοντας των δαπανών.
Για το σταθερό εισόδημα, οι δαπάνες για το στοιχείο ί θα συ­
μπεριφερόταν όπως μια τυχαία ποσότητα με μέσο α; + β;Ι και
τυπική απόκλιση που δίνεται από την τυπική απόκλιση των e;
και επειδή τα κατάλοιπα είναι ανεξάρτητα, όλη η συσχέτιση
μεταξύ των παρατηρούμενων μεταβλητών θα είχε αφαιρεθεί.
Αν όλα αυτά αποτελούν πειστικά συμπεράσματα (και υπάρ­
χουν πολλά «αν») θα ικανοποιούμασταν με το ότι οι αμοιβαί­
οι συσχετισμοί μεταξύ των αρχικών δαπανών εξηγήθηκαν α ­
πό την κοινή εξάρτησή τους με το εισόδημα. Επιπλέον, οι συ­
ντελεστές παλινδρόμησης, β;, θα μας έλεγαν πόσο έντονα ε­
ξαρτάται κάθε στοιχείο των δαπανών από το εισόδημα.
Στα περισσότερα πρα κτικά προβλήματα δεν υπάρχει κα­
μία έτοιμη μεταβλητή, όπως το εισόδημα αυτού του παρα­
δείγματος, για να την επικαλεσθούμε ως εξήγηση (ακόμα κι
αν υπήρχε, θα ήταν μη πρακτικό να συλλεχθεί επειδή για πα-
Ανάλυση πολυμεταβλητων δεδομένων για κοινωνικές επιστήμες

ράδειγμα, η ερώτηση θεωρήθηκε πάρα πολύ παρενθετική).


Ελλείψει οποιασδήποτε τέτοιας παρατηρήσιμης μεταβλη­
τής, θα πρέπει να αναρωτηθούμε εάν θα μπορούσε να υ­
πάρξει μία οποιαδήποτε -τέτοια λανθάνουσα μεταβλητή (ή
μεταβλητές), η οποία θα μπορούσε να διαδραματίσει τον ί­
διο ρόλο.
Στο ερώτημα εάν η λανθάνουσα μεταβλητή είναι ή όχι μία
πραγματική μεταβλητή, την οποία δεν είμαστε σε θέση να
παρατηρήσουμε ή είναι ένα κατασκεύασμα, αντιμετωπίζου­
με το ίδιο θεμελιώδες ερώτημα: υπάρχει κάποιος τρόπος ώ­
στε να υπολογίζουμε τα μοντέλα παλινδρόμησης (6.1) χωρίς
να γνωρίζουμε τις τιμές του /; Αυτό είναι το τεχνικό πρόβλη­
μα που επιδιώκει να λύσει η παραγοντική ανάλυση. Με ένα
μάλλον εκπληκτικό τρόπο, παρακάτω θα δούμε ότι το σύνο­
λο των συσχετισμών περιέχει πληροφορίες αρκετές για να ε­
πιτρέψει τον υπολογισμό των σχέσεων παλινδρόμησης και
ως εκ τούτου να συμπεράνουμε ότι θα μπορούσε να υπάρξει
κάποιος κοινός παράγοντας.
Υποθέστε ότι οι p παρατηρούμενες μεταβλητές μας, χ 1 , χ 2 ,
... , Xp, θεωρούνται ότι εξαρτώνται από ένα μόνο παράγοντα ή
μία λανθάνουσα μεταβλητή, y. Ο απλούστερος τρόπος για να
εκφράσουμε την παλινδρόμηση του κάθε χ στο y πραγματο­
ποιείται με τη βοήθεια του γραμμικού μοντέλου,

(ί = ], 2, ..., p) (6.2)
όπου το y μπορεί να ονομαστεί κοινός παράγοντας δεδομένου ό­
τι είναι κοινός για όλα τα Χ;. Τα ei μερικές φορές ονομάζονται
συγκεκριμένοι ή μοναδικοί παράγοντες, δεδομένου ότι είναι
μοναδικοί για ένα συγκεκριμένο χ; (επειδή ο Spearman σκε­
πτόμενος τα ei ως παράγοντες, ονόμασε το μοντέλο του μο­
ντέλο δύο παραγόντων. Η σύγχρονη ορολογία λαμβάνει υπό­
ψη της μόνο τον αριθμό των κοινών παραγόντων). Στο μοντέ­
λο ενός παράγοντα, κάνουμε τη συνηθισμένη υπόθεση παλιν­
δρόμησης, ότι δηλαδή το e; είναι ανεξάρτητο από το y και α­
κολουθεί κανονική κατανομή με μέση τιμή μηδέν και τυπική
Παραγοντική Ανάλυση 2.77

απόκλιση σi. Υποθέτουμε επίσης, ότι τα e1, e2 , ... , ep είναι α­


νεξάρτητα έτσι ώστε τα χ 1 , χ 2 , ... , Xp να είναι υπό συνθήκη α­
νεξάρτητα, με δεδομένο το y. Κατόπιν μπορούμε να κάνουμε
επαγωγή σχετικά με την κατανομή των χ και ειδικότερα, σχε­
τικά με τις συνδιακυμάνσεις και τις συσχετίσεις τους. Μπο­
ρούμε να επιλέξουμε όπως θέλουμε την κλίμακα και την προ­
έλευση του y, επειδή αυτό δεν έχει επιπτώσεις στη μορφή της
εξίσωσης παλινδρόμησης και έτσι επιλέγουμε να μετατρέ­
ψουμε το y ώστε να έχει μηδενικό μέσο και μοναδιαία τυπι­
κή απόκλιση. Προκύπτει ότι σε αυτό το μοντέλο, οι θεωρητι­
κοί συντελεστές συνδιακύμανσης έχουν μία πολύ απλή μορ­
φή, δηλαδή την ε ξής :

(i,t=l , ... ,p,i*t)

Το σημαντικό με αυτόν τον τύπο είναι ότι η συνδιακύμαν­


ση είναι γινόμενο δύο αριθμών, ενός που εξαρτάται μόνο α­
πό το i και του άλλου μόνο από το t. Από αυτές τις εξισώσεις,
είναι δυνατό να εξαχθεί κάτι σχετικό με τους συντελεστές πα­
λινδρόμησης στο μοντέλο. Για παράδειγμα η εξίσωση:

η οποία χρησιμεύει στον καθορισμό του β 2 από τις συνδιακυ­


μάνσεις. Εντούτοις, μπορούμε να κατασκευάσουμε και άλλες
τέτοιες εκφράσεις που επίσης μπορούν να υπολογίσουν το β 2 :
για παράδειγμα, εάν αντικαταστήσουμε τους δείκτες 1 και 3
με ένα οποιοδήποτε άλλο ζευγάρι στο ψάσμα 1 έως p, η δε­
ξιά πλευρά θα είναι η ίδια. Εάν το μοντέλο είναι σωστό και
εάν γνωρίζαμε τις αληθινές συνδιακυμάνσεις, Cον(χ;, Χι), τότε
όλες οι διαφορετικές εξισώσεις θα έδιναν ακριβώς την ίδια
τιμή του συντελεστή παλινδρόμησης, β 2 .
Αφού στην ανάλυση των πραγματικών δεδομένων θα εί­
χαμε εκτιμήσει ή θα είχαμε προσαρμόσει μόνο τις συνδια-
2.78 Α νάλvση πολvμεταβλητων δεδομένων για κοινωνικές επιστήμες

κυμάνσεις (με το συμβολισμό cov(xi, Χι) με το μικrό γράμμα


«c» ), δεν θα παίρναμε ίδιες εκτιμώμενες τιμές βi για το βi
ακόμα και αν το μοντέλο ήταν σωστό. Στο κεφάλαιο αυτό
καθώς και στα επόμενα, θα χρησιμοποιήσουμε ένα «καπέ­
λο» πάνω από μία παράμετρο για να δείξουμε την εκτιμώμε ­
νη τιμή. Ωστόσο, εάν όλες οι «εκτιμήσεις» του βi ήταν παρό­
μοιες, αυτό θα σήμαινε ότι το μοντέλο ήταν κατάλληλο. Αρ­
χικά, τα παραγοντικά μοντέλα προσαρμόζονταν με μία μέ­
θοδο όμοια με την παραπάνω, κουραστική στην εφαρμογή
της και η οποία δεν θα μπορούσε εύκολα να χρησιμοποιη­
θεί στην περίπτωση πολλών παραγόντων, όμως εκμεταλλευ­
όμενη το βασικό αποτέλεσμα που κρύβεται πίσω από την
προσαρμογή όλων των παραγοντικών μοντέλων, το οποίο εί­
ναι ότι μπορούμε να καθορίσουμε τις παραμέτρους του μο­
ντέλου από τις συνδιακυμάνσεις μεταξύ των παρατηρούμε­
νων μεταβλητών χωρίς να γνωρίζουμε τις ίδιες τις τιμές των
παραγόντων.
Το μοντέλο ενός παράγοντα μπορεί εύκολα να επεκταθεί
ώστε να επιτρέψει έναν αυθαίρετο αριθμό παραγόντων . Α­
πλώς αντικαθιστούμε την απλή εξίσωση γραμμικής παλιν­
δρόμησης με μία εξίσωση πολλαπλής παλινδρόμησης . Με
αυτό τον τρόπο, θα εισάγουμε μία περισσότερο προσαρμο­
στική σημειογραφία και ορολογία που θα είναι επίσης χρή­
σιμες και για τα μοντέλα των επόμενων τριών κεφαλαίων.

6.3 Το γενικό γραμμικό παραγοντικό μοντέλο

Το γενικό γραμμικό παραγοντικό μοντέλο για τις p παρατη­


ρούμενες μεταβλητές και τους q παράγοντες ή τις λανθάνου­
σες μεταβλητές παίρνει τη μορφή:

(ί = ], ...,p) (6.3)

όπου τα y1 ,y 2 , ···,Yq είναι οι κοινοί παράγοντες ή οι λανθάνου­


σες μεταβλητές, τα ei είναι τα κατάλοιπα και τα αi!, αi 2 και αiq
ονομάζονται παραγοντικές επιβαρύνσεις. Ο σταθερός όρος αiΟ
Παpαγοvτική Ανάλυση 279

δεν διαδραματίζει κανένα ρόλο στην προσαρμογή ή την ερ­


μηνεία του μοντέλου, μπορεί όμως να καταργηθεί, εάν υπο­
θέσουμε ότι τα χ μετριούνται σε σχέση με το μέσο όρο τους.
Τα άλλα α διαδραματίζουν ένα ρόλο κλειδί στην ερμηνεία
των παραγόντων. Γι' αυτό το λόγο, είναι χρήσιμο να γνωρί­
ζουμε ότι οι παραγοντικές επιβαρύνσεις αποδεικνύονται να
είναι οι συνδιακυμάνσεις μεταξύ των λανθανουσών μεταβλη­
τών και των χ (ή συσχετισμοί εάν τα χ είναι τυποποιημένα).
Όπως και στο απλό μοντέλο, κλιμακοποιούμε και οριοθετού­
με τα y έτσι ώστε να έχουν μέση τιμή μηδέν και τυπική από­
κλιση μονάδα.
Το γραμμικό παραγοντικό μοντέλο βασίστηκε στην ιδέα
της πολλαπλής γραμμικής παλινδρόμησης, αλλά είναι πε­
ρισσότερο περίπλοκο, υπό την έννοια ότι αντί να έχει μόνο
μία μεταβλητή απάντησης ή κριτηρίου, έχει p που υπό ό ­
ρους είναι αμοιβαία ασυσχέτιστες με δεδομένες τις επεξηγη­
ματικές μεταβλητές που επιπλέον είναι λανθάνουσες ή μη
παρατ ηρούμενες .
Καταγράφουμε τις υποθέσεις του μοντέλου ως εξής:

i) οι μεταβλητές y 1, y 2 , ... , y είναι ασυσχέτιστες μεταξύ


9
τους (αν και χαλαρώνουμε αυτή την υπόθεση παρακάτω
-βλέπε Παράγραφο 6.6),
ii) η κάθε μία από τις y1, y 2 , ... , yq έχει μηδενικό μέσο και
μοναδιαία διακύμανση,
iii) τα e1,e2, ... , ep είναι ασυσχέτιστα μεταξύ τους,
iv) κάθε e; έχει μηδενικό μέσο, αλλά μπορεί να έχουν δια­
φορετικές διακυμάνσεις, Var(ei)=σi2, (i=l, ... ,p),
ν) τα y είναι ασυσχέτιστα με τα e.
Μερικές φορές και για κάποιους λόγους, κάνουμε τις ακό­
λουθες συμπληρωματικές υποθέσεις:
vi) τα y 1, y2 , ... , y9 ακολουθούν πολυμεταβλητή κανονική
κατανομή.
vii) τα e1, e2 , ... , ep ακολουθούν πολυμεταβλητή κανονική
κατανομή.
280 Ανάλυση nολυμ,:ταβλητων δεδομένων για κοινωνικές επιστήμες

Οι υποθέσεις (vi) και (vii) υποδηλώνουν ότι τα Χι, χ 2, ... , Xp α­


κολουθούν επίσης πολυμεταβλητή κανονική κατανομή. Αυτές
οι υποθέσεις οδηγούν στο κανονικό γραμμικό παραγοντικό μο­
ντέλο. Οι υποθέσεις (iii) και (ν) υποδηλώνουν ότι οι συσχετισμοί
μεταξύ των χ ερμηνεύονται πλήρως από τους παράγοντες.

Ιδιότητες του γραμμικού παpαγοντικού μοντέλου

Ένα εναλλακτικό σύστημα χαρακτήρων και συμβόλων για


το γράψιμο του γενικού γραμμικού παραγοντικού μοντέλου,
που δίνεται από την εξίσωση (6.3) και τις προηγούμενες υ­
ποθέσεις (i) έως (ν) είναι:

Ε (xi Iy)=αi 0 +αiιΥι + ... +αiqYq (i=l, 2, ... , p),


SD (xily)=σi (i=J, 2, ... , p),
Cov (xi, xιly)=O (i, t=l, 2, ... ,p; in)
όπου το Ε (x;ly) διαβάζεται ως η δεσμευμένη αναμενόμενη
τιμή (ή μέση τιμή) του xi για σταθερό y (π.χ. για τις σταθε­
ρές τιμές των Υι, y 2, ... , Yq). Παρόμοια, το SD (xi Iy) είναι η δε­
σμευμένη τυπική απόκλιση του xi δεδομένου του y, η οποία
είναι, φυσικά, απλώς η τυπική απόκλιση του ei. Η τελευταί­
α αναφορά δηλώνει ότι η δεσμευμένη συνδιακύμανση είναι
μηδέν. Από αυτό συνεπάγεται ότι η δεσμευμένη συσχέτιση
είναι μηδέν.
Σκεφτείτε το προηγούμενο παράδειγμα για τον τρόπο
γραψίματος των παιδιών: εάν χι είναι το μέγεθος του ποδιού,
χ 2 η ικανότητα στο γράψιμο και y η μεταβλητή ηλικία, τότε
τα Χι και χ 2 συσχετίζονται θετικά, αλλά δεσμευμένα στο y εί­
ναι ασυσχέτιστα:

Corr (χι, χ 2 ) ) Ο,
Corr (χι, x2 ly)=O
Οι διαφορές στην ηλικία εξηγούν πλήρως τον προφανή
συσχετισμό μεταξύ του μεγέθους των ποδιών και της ικανό ­
τητας στο γράψιμο.
Παραγοντική Ανάλυση 281

Εάν οι δεσμευμένες κατανομές των χ 1 , χ 2 , ... , Xp με δεδομέ­


νο το y είναι κανονικές, τότε η μηδενική δεσμευμένη συσχέ­
τιση υπονοεί δεσμευμένη ανεξαρτησία. Το κανονικό γραμμι­
κό παραγοντικό μοντέλο είναι ένα υπό - συνθήκη ή τοπικά
μοντέλο ανεξαρτησίας.
Επιστρέφοντας στο γενικό γραμμικό παραγοντικό μοντέ­
λο, συμπεραίνουμε ότι η περιθώρια μέση τιμή της Xi είναι:

(i=l,2, ... ,p) (6.4)

ότι η μη δεσμευμένη ή η περιθώρια διακύμανση είναι:

(i=l,2, ... , p) (6.5)

και ότι η μη δεσμευμένη συνδιακύμανση μεταξύ δύο παρα­


τηρούμενων μεταβλητών xi και xk παίρνει τη μορφή:

(6.6)

όπου (i, k = 1, 2, ... , p· i * k).

Επομένως, η διακύμανση αποτελείται από δύο μέρη: το


μέρος της διακύμανσης του xi που ερμηνεύεται από τους κοι­
νούς παράγοντες (που επίσης ονομάζεται communality) και
το σ;υπολειπόμενη ή συγκεκριμένη διακύμανση. Οι συνδια­
κυμάνσεις μεταξύ των χ εξαρτώνται μόνο από τους συντελε­
στές παλινδρόμησης που τις συνδέουν με τους κοινούς παρά­
γοντες. Εάν οι κοινοί παράγοντες διατηρούνται σταθεροί,

δεν θα υπάρξει καμία εναπομένουσα πηγή συνδιακύμανσης


μεταξύ των χ.
Από τις παραπάνω εκφράσεις για τις διακυμάνσεις και τις
συνδιακυμάνσεις των χ, λαμβάνουμε τη μορφή του πίνακα
συνδιακύμανσης που προκύπτουν από το παραγοντικό μο­
ντέλο. Για παράδειγμα, από το μοντέλο ενός παράγοντα προ­
κύπτει ο ακόλουθος πίνακας συνδιακύμανσης των χ:
2.82. Ανάλυση πολυμεταβλητωv δεδομένων για κοινωνικές επισrήpες

Στη γενική περίπτωση, τα στοιχεία σε αυτόν τον πίνακα α ­


ντικαθίστανται από τις προηγούμενες εκφράσεις που δίνο­
νται στα (6.5) και (6.6).
Ενώ στην PCA, η επιλογή της κλίμακας των μεταβλητών
αλλάζει τις συνιστώσες -μεταβλητές με μεγάλες διακυμάν­
σεις που τείνουν να κυριαρχούν επί των λίγων πρώτων συνι­
στωσών- στη FΑ, επειδή είναι βασισμένη σε ένα μοντέλο, οι
παράγοντες παραμένουν ίδιοι ανεξάρτητα από τη χρήση ο­
ποιασδήποτε κλίμακας μέτρησης των παρατηρούμενων με­
ταβλητών. Εντούτοις, είναι κοινή πρακτική να κλιμακοποιού­
με ή να τυποποιούμε τις μεταβλητές ώστε να έχουν μέση τι­
μή μηδέν και διακύμανση μονάδα. Εφόσον έχουμε ήδη επι­
λέξει να τυποποιήσουμε τις λανθάνουσες μεταβλητές σε με ­
ταβλητές με διακύμανση μονάδα, αυτό θα μας δώσει τις πα ­
ραγοντικές επιβαρύνσεις στην κλίμακα των συσχετίσεων. Η
παραγοντική επιβάρυνση μεταξύ μιας παρατηρούμενης με­
ταβλητής και ενός παράγοντα θα είναι η συσχέτισή τους . Ως
εκ τούτου το communality μεταξύ μιας παρατηρούμενης με­
ταβλητής και του συνόλου των παραγόντων θα είναι επίσης ο
συντελεστής πολλαπλής συσχέτισης στο τετράγωνο, R 2• Κατά
συνέπεια, η χρησιμοποίηση τυποποιημένων μεταβλητών (και
επομένως η ανάλυση του πίνακα συσχέτισης αντί του πίνακα
συνδιακύμανσης) καθιστά την ερμηνεία των αποτελεσμάτων
ευκολότερη.
Παραγοντική Ανάλυση

Προσαρμόζοντας το μοντέλο

Η πιο συνηθισμένη αφετηρία για μια παραγοντική ανάλυση


είναι ο πίνακας συσχέτισης των χ. Θα πρέπει πρώτα να εξετα­
στούν οι συσχετίσεις . Εάν οι συσχετίσεις μεταξύ των χ είναι
χαμηλές, τότε η παραγοντική ανάλυση δε θα μας είναι χρή­
σιμη δεδομένου ότι τα χ είναι απίθανο να μοιράζονται κοι­
νούς παράγοντες. Η μελέτη μπορεί επίσης να αποκαλύψει εν­
διαφέροντες σχηματισμούς ή ανεπιθύμητες ανωμαλίες δια­
φόρων ειδών. Για παράδειγμα, εάν δύο πολύ συσχετισμένα χ
έχουν περιληφθεί ακούσια που σημαίνει ότι το ένα προσθέτει
πολύ λίγες πληροφορίες στο άλλο, η συσχέτιση κοντά στο ένα
θα είναι άμεσα προφανής. Το πρόβλημα εδώ είναι ότι οι πα­
ράγοντες που είναι κοινοί για κάποια χ δεν θα μπορούσαν να
δικαιολογήσουν αυτή την ιδιαίτερα υψηλή συσχέτιση και δεν
θα επιθυμούσαμε να προσαρμόσουμε έναν πρόσθετο παρά­
γοντα, απλώς και μόνο για να εξηγήσουμε μία συσχέτιση.
Η προσαρμογή του ίδιου του παραγοντικού μοντέλου πε­
ριλαμβάνει την εύρεση των τιμών των παραμέτρων που κά­
νουν τον παρατηρούμενο πίνακα συσχέτισης να πλησιάζει ό­
σο το δυνατόν περισσότερο σε αυτόν που προβλέπεται από
το μοντέλο. Στην περίπτωση του απλού παραγοντικού μοντέ­
λου, είδαμε (Παράγραφος 6.2) ότι αυτό θα μπορούσε να γί­
νει με μια μάλλον ειδική (ad hoc) διαδικασία. Αυτό που χρεια­
ζόμαστε είναι μια αριθμητική ρουτίνα που μπορεί να προ­
γραμματιστεί για να προσαρμόζει οποιοδήποτε μοντέλο. Η
εξέταση οποιουδήποτε κειμένου ή υπολογιστικού λογισμικού
πακέτου θα αποκαλύψει μια καταπληκτική σειρά μεθόδων
με ονόματα, όπως των ελαχίστων τετραγώνων, τη γενικευμέ­
νη μέθοδο των ελαχίστων τετραγώνων και της μέγιστης
πιθανοφάνειας. Όλες αυτές οι μέθοδοι αρχίζουν με την κα­
τασκευή ενός μέτρου για την απόσταση μεταξύ των παρατη­
ρούμενων και των προβλέψιμων πινάκων συσχέτισης, οι ο­
ποίοι διαφέρουν στο μέτρο που επιλέγουν. Η μέθοδος των ε­
λαχίστων τετραγώνων, όπως προτείνει και η ονομασία, α-
Ανάλυση πολιpειαβλη;ι:ων δεδομLνωv για κοιvωvικές επιστήμες

πλώς αθροίζει τα τετράγωνα των διαφορών μεταξύ των στοι­


χείων αντιστοίχισης των δύο πινάκων. Η μέγιστη πιθανοφά­
νεια χρησιμοποιεί μία απόσταση που προκύπτει φυσικά όταν
κάνουμε τις υποθέσεις της κανονικότητας (vi) και (vii) στην
Παράγραφο 6.3, αλλά μπορεί ακόμα να χρησιμοποιηθεί και
σε άλλη περίπτωση. Στην πράξη, συνήθως διαπιστώνουμε ό­
τι όλες οι μέθοδοι δίνουν μάλλον παρόμοια αποτελέσματα
και είναι θα ήταν εποικοδομητικό να δοκιμαστούν διάφορες
μέθοδοι, δεδομένου ότι όλες εκτελούνται πολύ γρήγορα σε υ­
πολογιστές γραφείου. Υπάρχει βέβαια κάποιο θεωρητικό
πλεονέκτημα στη χρησιμοποίηση είτε της μέγιστης πιθανο­
φάνειας είτε των σταθμισμένων ελαχίστων τετραγώνων.
Φυσικά, η προσαρμογή του μοντέλου δεν εγγυάται ότι θα
είναι και αποδεκτή. Παρακάτω θα περιγράψουμε μεθόδους
που θα κρίνουν την καταλληλότητα ενός μοντέλου.

6.4 Ερμηνεία

Οι παραγοντικές επιβαρύνσεις

Οι παραγοντικές επιβαρύνσεις έχουν παρόμοια ερμηνεία με


τις επιβαρύνσεις των συνιστωσών στην PCA. Εάν ο πίνακας
συσχέτισης αναλύεται και εάν οι παράγοντες περιορίζονται
στο να είναι ασυσχέτιστοι (υπόθεση (i), Παράγραφος 6.3), η
παραγοντική επιβάρυνση ~ij είναι η συσχέτιση μεταξύ της
παρατηρούμενης μεταβλητής xi και της λανθάνουσας μετα­
βλητής y1. Ένας παράγοντας μπορεί να ερμηνευθεί ή να ονο­
μαστεί εξετάζοντας τις τιμές των επιβαρύνσεων σε εκείνον
τον παράγοντα στις παρατηρούμενες μεταβλητές. Για να δεί­
ξουμε την ερμηνεία των παραγοντικών επιβαρύνσεων, ανα­
λύουμε ξανά τα δύο σύνολα δεδομένων που αναλύθηκαν
προηγουμένως με τη χρήση της PCA.
Το γραμμικό παραγοντικό μοντέλο με δύο παράγοντες
προσαρμόστηκε στα δεδομένα των βαθμών των μαθημάτων
Παραγοντική Ανάλυση

που περιγράφηκαν στην Παράγραφο 5.5. Οι εκτιμώμενες ε­


πιβαρύνσεις που λαμβάνονται με τη μέθοδο της μέγιστης πι­
θανοφάνειας παρουσιάζονται στον Πίνακα 6.2. Αφού ο πί­
νακας συσχέτισης των βαθμών αναλύθηκε, οι επιβαρύνσεις
μπορούν να ερμηνευθούν ως συσχετίσεις μεταξύ του βαθμού
σε ένα μάθημα και του παράγοντα. Για παράδειγμα, η συ­
σχέτιση μεταξύ των κελτικών και του πρώτου παράγοντα υ­
πολογίζεται ως 0,56. Στην προσπάθεια ερμηνείας του παρά­
γοντα, θα πρέπει να αναρωτηθούμε τι είναι αυτό που συσχε­
τίζεται θετικά και αρκετά ισχυρά με κάθε έναν από τους
βαθμούς των μαθημάτων . Η θέση είναι αρκετά παρόμοια με
αυτήν που αντιμετωπίσαμε κατά την ερμηνεία των επιβα ­
ρύνσεων των συνιστωσών που λήφθηκαν από την PCA για
αυτό το σύνολο δεδομένων. Επομένως, μπορούμε να ερμη­
νεύσουμε τους πρώτους δύο παράγοντες με τον ίδιο τρόπο ό­
πως τις δύο πρώτες συνιστώσες. Ο πρώτος παράγοντας με­
τρά τη γενική ικανότητα στα έξι μαθήματα, ενώ ο δεύτερος
αντιπαραβάλλει τα μαθήματα των ανθρωπιστικών επιστη­
μών και των μαθηματικών.

Πίνακας 6.2 Εκτzμώμενες παpαγοντικές επιβαρύνσεις από ένα μοντέ­


λο δύο παραγόντων -δεδομένα για τους βαθμούς των μαθημάτων

Θ έματα α;1 α;2

Κελτικά 0,56 0,43


Αγγλικά 0,57 0,29
Ιστορία 0,39 0,45
Αριθμητική 0,74 -0,28
Άλγεβρα 0,72 -0,21
Γεω!:!ετ~ία 0,60 -0,13

Επίσης , ένα μοντέλο δύο παραγόντων προσαρμόστηκε


για τα δεδομένα των χαρακτηριστικών της προσωπικότητας
των παιδιών που παρουσιάστηκε στην Παράγραφο 5.5. Οι ε­
πιβαρύνσεις παρουσιάζονται στον Πίνακα 6.3. Πάλι, η ερμη-
186 Ανάλυση πολυμεταβλητων δεδομένων για κοινωνικές επιστήμες

νεία των παραγόντων είναι ουσιαστικά η ίδια με αυτήν των


κύριων συνιστωσών. Ο πρώτος παράγοντας αντιπροσωπεύει
κάποια γενική μέτρηση της προσωπικότητας, ενώ ο δεύτερος
αντιπαραβάλλει δείκτες, όπως είναι η κοινωνικότητα, δηλα­
δή πώς ένα παιδί σχετίζεται με άλλους ανθρώπους με βάση
εκείνους που είναι εσωτερικοί στο άτομο, όπως η ενοχή.

Πίνακας 6.3 Εκτιμώμενες παραγοντικές επιβαρύνσεις από ένα μοντέ­


λο δύο παραγόντων των δεδομένων των χαρακτηριστικών της παιδικής
προσωπικότητας

Μεταβλητή (χαρακτηριστικό προσωπικότητας)

Ευγένεια 0,65 0,57


Αναζήτηση επιβεβαίωσης 0,54 0,54
Πρωτοβουλία 0,61 -0,45
Ενοχή 0,63 -0,54
Κοινωνικότητα 0,56 0,54
Δημιουργικότητα 0,72 -0,59
Ρόλος ενηλικίωσης 0,67 -0,45
Συνεργατικότητα 0,64 0,60

Communalities

Το communality μιας τυποποιημένης παρατηρούμενης μετα­


βλητής είναι ο συντελεστής πολλαπλής συσχέτισης σrο τετρά­
γωνο ή το ποσοστό της διακύμανσης που εξηγείται από τους
κοινούς παράγοντες. Τα εκτιμώμενα communalities από την
παραγοντική ανάλυση των δεδομένων των βαθμών των μαθη­
μάτων παρουσιάζεται στον Πίνακα 6.4. Αυτοί δείχνουν, για
παράδειγμα, ότι το 49% της διακύμανσης στα αποτελέσματα
των κελτικών εξηγείται από τους δύο κοινούς παράγοντες.
Θυμηθείτε επίσης από την Παράγραφο 6.3 ότι το
communality μιας μεταβλητής υπολογίζεται ως το άθροισμα
των τετραγώνων των επιβαρύνσεων για εκείνη την μεταβλητή.
Για παράδειγμα, το communality για τα αποτελέσματα των
Παραγονι.κή Ανάλυση

κελτικών υπολογίζεται ως 0,56 2 + 0,43 2 =0,49. Όσο μεγαλύτε­


ρο είναι το communality, τόσο καλύτερα εξυπηρετεί η μετα­
βλητή ως ένας δείκτης των σχετικών παραγόντων. Ή διαφο­
ρετικά, μία μεταβλητή, χ;, με μεγάλο communality είναι ένας
«καθαρότερος» δείκτης των κοινών παραγόντων, y, με λιγότε­
ρη επίδραση από τη συγκεκριμένη συνιστώσα, e;. Το άθροι­
σμα των communalities είναι η διακύμανση που εξηγείται α­
πό το παραγοντικό μοντέλο. Από τον Πίνακα 6.4, αυτή είναι
2,81 ή το 47% του 6 που είναι η συνολική διακύμανση για τα
δεδομένα των βαθμών των μαθημάτων.

Πίνακας 6.4 Communalities από την προσαρμογή ενός γραμμικού


μοντέλου δύο παραγόντων στα δεδομένα των βαθμών των μαθημάτων

Communalιues

Κελτικά 0,49
Αγ 1 \ικά 0,41
Ιστορία 0,36
Αριθμητική 0,62
Άλγεβρα 0,56
Γεω~ετeία 0,37

6.5 Επάρκεια του μοντέλου και επιλογή


του αριθμού των παραγόντων

Πρωταρχικός στόχος της FA είναι η μείωση των διαστά­


σεων του πολυμεταβλητού συνόλου δεδομένων με διατήρηση
ικανοποιητικών διαστάσεων ώστε να παρέχεται μια καλή κα­
τά προσέγγιση απεικόνιση των αρχικών δεδομένων . Υπάρ­
χουν διάφοροι τρόποι με τους οποίους μπορεί να αξιολογη­
θεί η επάρκεια ενός παραγοντικού μοντέλου.

i) Ποσοστό διακύμανσης που εξηγείται από τους παράγοντες


Αν και ο στόχος της παραγοντικής ανάλυσης είναι να ερ-
288 Ανάλυση πολυμεrαβλητωv δεδομένων για κοινωνικές επισrήμες

μηνευθούν οι συνδιακυμάνσεις ή ισοδύναμα οι συσχετί­


σεις μεταξύ των παρατηρούμενων μεταβλητών αντί των
διακυμάνσεών τους, το ποσοστό της διακύμανσης που ε­
ξηγείται από τους κοινούς παράγοντες θα είναι εύλογα υ­
ψηλό. Οι δύο κοινοί παράγοντες που προσαρμόζονται
στα δεδομένα των βαθμών των μαθημάτων εξηγούν μαζί
περίπου το 47% της συνολικής διακύμανσης, το οποίο εί­
ναι σχεδόν το ίδιο όπως στην πρώτη κύρια συνιστώσα. Ε­
πίσης το communality μπορεί να χρησιμοποιηθεί για να
δούμε ότι οι ατομικές παρατηρούμενες μεταβλητές εξη­
γούνται εξίσου από τους παράγοντες. Από τον Πίνακα 6.4,
φαίνεται ότι οι βαθμοί στην αριθμητική εξηγούνται καλύ­
τερα από τους βαθμούς στην ιστορία.

ii) Εκτιμώμενος πίνακας συσχέτισης

Ένας καλός τρόπος για την επίτευξη της προσαρμογής ε­


νός μοντέλου είναι να συγκριθεί ο προσαρμοσμένος
(εκτιμώμενος) πίνακας συσχέτισης των χ με τον πίνακα
συσχέτισης που υπολογίστηκε από το δείγμα των δεδομέ­
νων. Ο Πίνακας 6.5 παρουσιάζει τον εκτιμώμενο πίνακα
συσχέτισης που λαμβάνουμε από την προσαρμογή ενός
μοντέλου δύο παραγόντων στα δεδομένα των βαθμών των
μαθημάτων. Οι διαγώνιες καταχωρήσεις του άνω τμήμα­
τος του πίνακα είναι τα communalities (που επίσης δίνε­
ται στον Πίνακα 6.4). Οι μη διαγώνιες καταχωρήσεις αυ­
τού του τμήματος του πίνακα είναι οι εκτιμώμενες συσχε­
τίσεις. Για παράδειγμα, η συσχέτιση μεταξύ των βαθμών
των κελτικών και των αγγλικών υπολογίζονται απότομο­
ντέλο:

Οι εκτιμώμενες συσχετίσεις θα πρέπει να συγκριθούν με


τον πίνακα συσχέτισης δειγμάτων που δίνεται στον Πίνακα
Παραγοντική Ανάλυση

5.2. Το κάτω τμήμα του πίνακα δείχνει τις ασυμφωνίες ή τις


διαφορές μεταξύ των παρατηρούμενων συσχετίσεων δειγμά­
των και των εκτιμώμενων συσχετίσεων. Εδώ οι διαφορές εί­
ναι μικρές και προτείνουν ότι το μοντέλο δύο παραγόντων έ­
χει μία καλή προσαρμογή .

iii) Έλεγχος καλής προσαρμογής (Goodness-of-fit test)

Εάν λάβουμε ως δεδομένο το κανονικό μοντέλο παραγοντι­


κής ανάλυσης, τότε μπορούμε να πραγματοποιήσουμε έναν
έλεγχο του λόγου των λογαριθμικών πιθανοφανειών ή έναν έ­
λεγχο κα \ής προσαρμογής για να εξετάσουμε τη μηδενική υ­
πόθεση ότι ο πίνακας συνδιακύμανσης των χ έχει τη μορφή
που ορίζεται από το παραγοντικό μοντέλο. Αν αποτύχουμε να
απορρίψουμε αυτή την μηδενική υπόθεση αυτό θα υπονοού­
σε μια καλή προσαρμογή. Η στατιστική συνάρτηση ελέγχου
W ακολουθεί/ κατανομή κάτω από τη μηδενική υπόθεση με
{ (p-q) 2 - (p+q)fl 2βαθμούς ελευθερίας.
Η στατιστική συνάρτηση ελέγχου για το μοντέλο δύο παρα­
γόντων που προσαρμόστηκε στα δεδομένα των βαθμών στα
μαθήματα ήταν 2,18 με 4 βαθμούς ελευθερίας, προτείνο­
ντας ότι το μοντέλο έχει μία πολύ καλή προσαρμογή.
Εάν ένα μοντέλο με ένα δεδομένο αριθμό παραγόντων κρί­
νεται ότι έχει μία φτωχή προσαρμογή, μπορούν να προστε­
θούν περισσότεροι παράγοντες έως ότου να επιτευχθεί μία
καλή προσαρμογή . Εντούτοις, ως συνήθως, θα πρέπει να
λάβουμε υπόψη μας την ισορροπία μεταξύ της ερμηνευτι­
κής ικανότητας και της προσαρμοστικότητας. Ένα μοντέ­

λο καλής προσαρμογής με ένα μεγάλο αριθμό παραγό­


ντων μπορεί να μην είναι ερμηνεύσιμο, ενώ ένα μοντέλο
φτωχής προσαρμογής μπορεί παρά ταύτα να αποκαλύψει
μερικά ενδιαφέροντα χαρακτηριστικά γνωρίσματα των
δεδομένων. Για δείγματα μεγάλους μεγέθους, ο έλεγχος
γίνεται ευαίσθητος στις μικρές απομακρύνσεις από το μο­
ντέλο που μπορεί όμως να μην έχουν πρακτική σημασία.
Ανάλυση πολυμεταβλητω", δεδομένων γ,α κοινω",ικές επιστήμες

Επίσης, ένα στατιστικά σημαντικό αποτέλεσμα μπορεί να


οφείλεται στις απομακρύνσεις από την πολυμεταβλητή
κανονικότητα παρά στην ανάγκη για έναν πρόσθετο πα ­
ράγοντα.

iv) Τυπικά σφάλματα των παραγοντzκών επzβαpύνσεων

Συνήθως, τα τυπικά σφάλματα των παραγοντικών επιβα­


ρύνσεων δεν δίνονται και δεν περιέχονται σε μερικά
στατιστικά πακέτα. Εντούτοις και στην ερμηνεία των πα­
ραγόντων και στην απόφαση για το πόσοι παράγοντες α­
παιτούνται, θα ήταν χρήσιμο να εξεταστούν τα τυπικά
σφάλματα. Για παράδειγμα, εάν οι απόλυτες τιμές των
κατ' εκτίμηση επιβαρύνσεων για έναν παράγοντα ήταν ό­
λες μικρότερες από το διπλάσιο των τυπικών σφαλμάτων
τους, τότε η ανακρίβεια εκείνου του παράγοντα θα τον
καθιστούσε άχρηστο . Όπως και για το στατιστικό έλεγχο
καλής προσαρμογής, έτσι και για τον υπολογισμό των τυ­
πικών σφαλμάτων είναι απαραίτητο να είναι γνωστό το
μέγεθος του δείγματος. Υπάρχει μία θεωρητική πτυχή
που θα πρέπει να ληφθεί υπόψη όταν υπολογίζονται τα
τυπικά σφάλματα. Το λογισμικό για τα μοντέλα δομημέ­
νων εξισώσεων (LISREL, EQS, M-Plus) παρέχει τα τυπι­
κά σφάλματα για τις παραγοντικές επιβαρύνσεις του α­
πλού παραγοντικού μοντέλου, αλλά όχι για το μοντέλο με
περισσότερους από έναν παράγοντες, εκτός αν γίνει προ­
σαρμογή ενός επιλεγμένου παραγοντικού μοντέλου
(confirmatory factor model). Ο λόγος είναι ότι δεν υπάρ­
χει καμία μοναδική λύση όταν ο αριθμός των παραγό­
ντων είναι μεγαλύτερος από το ένα (δείτε την Π αράγρα­
φο 6.6). Μια μοναδική λύση μπορεί να ληφθεί με τον κα­
θορισμό μερικών από τις παραγοντικές επιβαρύνσεις σε
μια προκαθορισμένη τιμή. Ο αριθμός των παραγοντικών
επιβαρύνσεων με προκαθορισμένες τιμές εξαρτάται από
τον αριθμό των παραγόντων που θα προσαρμοστούν . Για
παράδειγμα στο μοντέλο δύο παραγόντων θα πρέπει να
Παραγονιt~<ιί Ανάλυση 2.91

καθοριστεί η τιμή μίας επιβάρυνσης ώστε να λάβουμε


μια μοναδική λύση.

Επιλέγοντας τον αριθμό των παραγόντων

Ο αριθμός των παραγόντων q θα πρέπει να είναι αρκετά μι­


κρός, έτσι ώστε οι βαθμοί ελευθερίας [(p-q) 2 - (p+q)/2] να εί­
ναι μεγαλύτεροι ή ίσοι με το μηδέν. Έτσι όταν p=3 ήp=4, το
q δεν μπορεί να είναι μεγαλύτερο από τη μονάδα, αλλά όταν
p=20, το q θα μπορούσε να είναι τόσο μεγάλο έως και 14.
Στην επιλογή του αριθμού των παραγόντων που θα προσαρ­
μοστούν, ένα χρήσιμο πρώτο βήμα είναι να πραγματοποιη­
θεί μια ανάλυση κύριων συνιστωσών, επειδή ο αριθμός των
συνιστωσών που απαιτείται είναι συχνά ένας καλός οδηγός
για τον αριθμό των παραγόντων. Ο αριθμός των κύριων συ­
νιστωσών που απαιτούνται κρίνεται σύμφωνα με τα κριτήρια
που περιγράφονται στην Παράγραφο 5.4. Έπειτα μπορεί να
προσαρμοστεί ένα παραγοντικό μοντέλο με τον ίδιο αριθμό
παραγόντων . Η λογική γι' αυτή τη διαδικασία δίνεται στην
Παράγραφο 6.10, στην οποία εξετάζουμε λεπτομερέστερα
τη σχέση μεταξύ της PCA και της παραγοντικής ανάλυσης.
Για να αξιολογηθεί η επάρκεια ενός μοντέλου με ένα δεδομέ­
νο αριθμό παραγόντων, χρησιμοποιούμε το ποσοστό της δι­
ακύμανσης που εξηγείται, τα communalities, τις αποκλίσεις
μεταξύ των παρατηρούμενων και των εκτιμούμενων συσχετί­
σεων, τον έλεγχο καλής προσαρμογής και τα τυπικά σφάλμα­
τα των υπολογισμένων παραγοντικών επιβαρύνσεων, όπως
περιγράψαμε παραπάνω .
... Η Στατιστ1κή iεν εiναι ένα σύνολο κανόνων και συνταγών για την α­
νάλυση καταγραμμένων δεδομένων. Δεν εξαντλεiται ατον χειρισμό
πολύπλοκων υπολογιστικών προγραμμάτων και ωραiων γραφικών. Α­
ποιτεi την καλή γνώση του παρατnρούμενοu φαινόμενου, την οργάνω-
ση της παρατήρησης, της καταγραφής των δεδομένων, την περιγραφή .;
και τον έλεγχο υποθέσεων για τις παραμέτρους του φαινόμενου. Εiνα1
απαραiτnτο να γνωρiζει ο χρήστης τα όρια και την ερμnνεiα των απο­
τελεσμάτων κάθε στατιστικής τεχν1κής. Κανένα υπολογιστ1κό πρό­
γραμμα δεν μπορεi να δώσε~ απαντήσε1ς γ1α ερωτήματα για τα οποiα
δεν εiνα1 σχεδ1ασμένο ...
Θεόδωρος Χατζηπαντελής

... Ο ρόλος του κοινωνικού επ1στήμονα στις μέρες μας έχε1 δ1εuρuνθεi.
Ο κο1νωνικός επ1στήμονας καλεiτα1 όχ1 μόνο να αναπτίιξε1 ένα θεωρη­
τικό μοντέλο και να θέσει τις uποθέσε1ς τις έρευνας αλλά και να επ1-
λέξε1 την κατάλληλη στατ~στική μεθοδολογiα που θα τον Βοnθήσε1 να
επαληθεύσει ή όχι αuτjς τις υποθέσεις. Επiσnς καλεiτα1 να κρiνε1 και
την ετπστnμονική ορθότητα της στατιστ1κής ανάλυσης στην οποiα ε­
κτiθετα1 μέσα από τις επ1στnμονικές δnμο01εύσε1ς ...

Ειρήνη Μουστάκη

ISBN 978-960-6647-94-9

Jυιn .ιιJι

You might also like