Professional Documents
Culture Documents
Οανιb Moustaκi-Jane: Bartholomew-Aona Steele-Irn Galbraith
Οανιb Moustaκi-Jane: Bartholomew-Aona Steele-Irn Galbraith
GALBRAITH
επ1κεντρο
ΚΕΦΆΛΑΙΟ 3ο
Πολυδιάστατη Κλιμάκωση
3.1 ΕΙΣΑΓΩΓΉ
3 _)
3 6
12.4 Ανάλυση πολυμεταβλητών δεδομLνων για κοινωνικές επιστήμες
2 4 7
Dimension 1
3.2 Παραδείγματα
Λονδίνο Βερολίνο Όσλο Μόσχα Παρίσι Ρώμη Πεκίνο Κων/πολ~ Γιβeαλτάρ Ρέικια~ικ
Λονδίνο
Βερολίνο 570
Όσλο 710 520
Μόσχα 1550 1000 1020
Παρίσι 210 540 830 1 540
Ρώμη 890 730 1240 1470 680
Πεκίνο 5050 4570 4360 3600 5100 5050
Κων/πολη 1550 1080 1520 1090 1040 850 4380
Γιβραλτάρ 1090 1450 1790 2410 960 1030 6010 1870
Ρέικια~ικ 1170 1480 1080 2060 1380 2040 4900 2560 2050
6000
""4000
6
D
5
~
<Ι
~ing
2000 Θilf'1Ιar
σλα ία
Βραζιλία
Κονγκό 4,83
Κούβα 5,28 4,56
Αίγυπτος 3,44 5,00 5,17
Γαλλία 4,72 4,00 4,11 4,78
Ινδία 4,50 4,83 4,00 5,83 3,44
Ισραήλ 3,83 3,33 3,61 4,67 4,00 4,11
Ιαπωνία 3,50 3,39 2,94 3,83 4,22 4,50 4,83
Κίνα 2,39 4,00 5,50 4,39 3,67 4,11 3,00 4,17
Ρωσία 3,06 3,39 5,44 4,39 5,06 4,50 4,17 4,61 5,72
ΗΠΑ 5,39 2,39 3,17 3,33 5,94 4,28 5,94 6,06 2,56 5,00
Γιουγκο
σλα~ία 3,17 3,50 5,11 4,28 4,72 4,00 4,44 4,28 5,06 6,67 3,56
.,PRO-COMMUNIST
1
·'
i
1
Aussia
•
f
1
Yugo_rιavίa
1
/
i
USA • Cuba
... lsrael
-1
~ DEVELOPING
.i
Ι
.i
/Br_:ziΙ
PRO-WESTERN; -1
Κλασική κλιμάκωση
Σ ί-<..J
(d.-δ
u IJ
\ ). d~
Αυτό το μέτρο ονομάζεται stress ή μερικές φορές κανονι-
κοποιημένο stress. Υπάρχουν πολλοί άλλοι τρόποι υπολογι
σμού ενός μέτρου κανονικοποιημένου stress. Ένα εναλλα
κτικό μέτρο, η.χ. μπορεί να επιτευχθεί με την αντικατάστα
ση των dij με τα δij στον παρονομαστή της σχέσης (3.1). Οι
τιμές του stress που είναι κοντά στο μηδέν θα έδειχναν ότι
η λύση της MDS είναι καλά προσαρμοσμένη στις πραγμα
τικές τιμές δij.
Πολυδιάστατη Κλιμάκωοη 133
Πολύ συχνά δεν είναι η πραγματική τιμή των δij που είναι
σημαντική ή εμπεριέχει κάποιο νόημα, αλλά η τιμή τους σε
σχέση με τις αποστάσεις μεταξύ άλλων ζευγαριών . Αυτό είναι
αληθές ιδιαίτερα όταν τα δiJ είναι αποτέλεσμα ενός πειράμα
τος όπου τα θέματα για τα οποία οι ερωτώμενοι καλούνται να
δώσουν τις υποκειμενικές τους αξιολογήσεις, αφορούν στην
απόσταση μεταξύ των αντικειμένων. Σε τέτοιες περιπτώσεις,
τα δij μπορεί να ερμηνευθούν μόνο με μια διατάξιμη κλίμα
κα. Στη διατάξιμη MDS, στόχος είναι να βρεθεί ένας σχηματι
σμός έτσι ώστε τα dij να είναι στην ίδια διάταξη βαθμού όπως
τα πραγματικά δiJ. Έτσι, π.χ., εάν η απόσταση μεταξύ των
αντικειμένων 1 και 3 είναι η πέμπτη μεγαλύτερη/μικρότερη
στα δij, πρέπει επίσης να είναι πέμπτη στην σειρά και στο
σχηματισμό της MDS. Όπως σημειώνεται στην Παράγραφο
3.1, σε αυτό το κεφάλαιο δίνεται έμφαση στην διατάξιμη
MDS.
Στην διατάξιμη MDS, κατασκευάζουμε τις προσαρμοσμέ-
Λ
δij
Σχήμα 3.4. Παράδειγμα μονοτονικής παλινδρόμησης
Α νάλvση ιwλvμααβλητών δεδομiνωv για κοινωνικές επιστήμες
Μετρική Κλιμακοποίηση
0,20 Φτωχή
0,05 Καλή
0,00 Άριστη
Ανάλυση Αντιστοιχιών
Το ψηφίζω
το καλύτερο
δεν είχε
πιθανότητα 59 74 87 31 5 256
Σύνολο 1.236 1.021 440 197 69 2.963
Επάγγε μα
Στάση
Mixed attitude
(0,1,0)
8 years
or less 13 years
\ ormore
• •
,/
(0,0,1) (1,0,0)
Negative attitude Positive attitude
2
(0.187-0.353) (0.222-0.201)2 (0.591-0.446)2
~ - - - - ~ + - - - - - - + - - - - - - = 0.354
0.369 0.196 0.435
Αυτό το μέτρο απόστασης συχνά αναφέρεται ως Χ από
2
-
Πίνακας Τετραγωνισμένες Χ
2
4.5 - αποστάσεις ανάμεσα στα
«προφίλ» γραμμής κα~ ανάμεσα στα «προφίλ» γραμμής κα~ το κεντpο
εzδές -δεδομένα γ~α τη στάση απέναντι στην έκτρωση με βάση τη μόρ
φωση, ΗΠΑ, 1972-74
Γραμμή
2 3
1 ο
2 0,125 ο
3 0,445 0,099 ο
Inertίa (Αδράνεια)
Σ(massfor row ί )χ d;
2
i=I
χ2
Inertίa =--
n
Dlmension 2
1
<=
...
β }'ilBfS ...
>=13 ears
-1 ...
9· 12 years
Dimension 1
όπου
λ'k
!/4
• Uik
U;k =
.Joi+ Ιn
r82 Ανάλυση πολυμει:αβλψω11 δεδομένων για κο1νω11ικtς επuπήμες
Με αυτή την έννοια, μία μεγάλη θετική τιμή για τις (uiΊι, vjk)
υποδεικνύει μία θετική συσχέτιση ανάμεσα στη γραμμή i και
τη στήληj πάνω στη διάσταση k.
Μία μεγάλη θετική τιμή επιτυγχάνεται εάν τα (u~) και (vjk)
έχουν και τα δύο μεγάλες και θετικές τιμές ή μεγάλες και
αρνητικές που σημαίνει ότι τα σημεία για αυτές τις
κατηγορίες εμφανίζονται να είναι κοντά μεταξύ τους πάνω
στο διάγραμμα διπλής προβολής και μακριά από το μηδέν
στη διάσταση k.
Μία μεγάλη αρνητική τιμή για τα (uiΊι,vjk) υποδεικνύει μία
αρνητική συσχέτιση ανάμεσα στη γραμμή i και τη στήλη j
στη διάσταση k. Μία μεγάλη αρνητική τιμή επιτυγχάνεται, ε
άν ένα από τα (u~) και (vjk) είναι μεγάλο και θετικό και το άλ
λο είναι μεγάλο και αρνητικό που σημαίνει ότι τα σημεία για
αυτές τις κατηγορίες εμφανίζονται να είναι πολύ μακριά με
ταξύ τους πάνω στο διάγραμμα διπλής προβολής, με κανένα
σημείο κοντά στο μηδέν στη διάσταση k.
Μία τιμή κοντά στο μηδέν για το (u* vjk) δεν υποδεικνύει
συσχέτιση ανάμεσα στη γραμμή i και τη στήληj στη διάστα
ση k. Μία τιμή κοντά στο μηδέν επιτυγχάνεται εάν μία ή και
οι δύο από τα (u;k) και (vjk) είναι κοντά στο μηδέν πάνω στη
διάσταση k.
Υπάρχουν δύο τύποι διαγράμματος διπλής προβολής που
μπορούν να χρησιμοποιηθούν στην CORA: τα ασύμμετρα
γραφήματα και τα συμμετρικά γραφήματα . Για το συμμετρι
κό γράφημα έχουμε ήδη συζητήσει παραπάνω και θα το α
πεικονίσουμε ακολούθως. Σημειώνεται ότι αυτό το γράφημα
είναι γενικά περισσότερο χρήσιμο.
Συμμετρικά γραφήματα
•<= 8 years
Ο Negatiνe
1.
.,,. Reason
_ ο Party
1
conservatiνe
ο
...
Bostρany
efused
ο
UbDem ο
ο
"' Actίvity
ο Occupation
DanceJίsco
Cale/Ae1,.ιauranl
Ch1rch
ORetinid
Ostudent
-1
Clnf"a Low Nonδ'an
Popcincert
Artox'lhftian
High Non-man
•τhaaι re
CJassica!.._concen
-1
Ασύμμετρα γραφήματα
είναι τότε:
✓ λk χ (nιass for row ί) xu ;
2
ι:,
r98 Ανάλυση πολυμεταβληπ.w δεδομένων για κοινωνικές επιστήμες
A!,LSlήa
FranC<J,...A!,Lslralia
1- Netheήands Z~babwe
C!l.mbodia
ο- ~ίνίa
ΕΙ Sflνador Plj_PUB New Guinea
Arge,ι,tina B"!l'il feru
C2Ιombia
Αι,ι,aπίa
C!;!ina
Cro\tla R2manla
1 1 1 1
-1 ο 2
Υ1
Σχήμα 5.9 Γράφημα των τιμών στις δύο πρώτες κύριες συνιστώσες
-οικονομικά και δημογραφικά δεδομένα
Ανάλυση πολυμεταβλητων δεδομένων για κοινωνικές επιστήμες
(j = ], ... , p)
Ανάλυση κυρiwν συνιστωσών 257
(i = 1, ... ,p),
(ί = 1, ... , p)
Πίνακας 5.12 Communalities για μiα και για δύο συνιστώσες για τα
δεδομένα της βαθμολογίας των μαθημάτων
ΜεταβΧητή Χι Χ2 Χ3 Χ4 Χ5 Χ5 Χ7 Xs Χ9 Χιο
Χι 100 37 23 10 43 17 13 18 8 29
Χ2 37 100 23 13 38 15 10 18 10 28
Χ3 23 23 100 53 35 28 28 32 25 29
Χ4 10 13 53 100 24 23 38 31 35 22
Χ5 43 38 35 24 100 20 14 23 11 44
Χ5 17 15 28 23 20 100 47 26 12 19
Χ7 13 10 28 38 14 47 100 21 19 16
Xs 18 18 32 31 23 26 21 100 50 44
Xg 8 10 25 35 11 12 19 50 100 33
Χιο 29 28 29 22 44 19 16 44 33 100
0,7 και αυτό δείχνει ότι αυτή μπορεί να αποτελεί μία σύνοψη
των δέκα μεταβλητών που μετρούν τη θέση (κατάσταση) της
οικογένειας.
Η δεύτερη συνιστώσα (η οποία εξηγεί το 14% της συνολι
κής διασποράς) συγκρίνει τις μεταβλητές χ 1 , χ 2, χ 5 , και χ 10 (οι
οποίες δίνουν την επαγγελματική κατάσταση για τα διάφορα
μέλη της οικογένειας) και τις μεταβλητές χ 4, χ 7 , και χ 9 (που
σχετίζονται με τα προσόντα) με μία μικρότερη συνεισφορά
από τις μεταβλητές Χ3, χ 6 , και χ 8 (που σχετίζονται με την πε
ραιτέρω μόρφωση).
Η τρίτη συνιστώσα (η οποία εξηγεί ένα περαιτέρω 11 %
της διασποράς) συγκρίνει τον πρωτότοκο γιο (μεταβλητές Xs,
χ 9, και χ 10) με τη μητέρα του (μεταβλητές χ 6 και χ 7 ) και πιθα
νώς με άλλους προγόνους (οι εναπομείναντες μεταβλητές).
Η τέταρτη συνιστώσα μπορεί επίσης να ερμηνευθεί ως
μία σύγκριση ανάμεσα στους συζύγους (γυναίκες-άνδρες),
αλλά αυτό μπορεί να οδηγήσει τα δεδομένα πέρα από τα ό
ριά τους, καθώς η ιδιοτιμή για αυτή τη συνιστώσα είναι μι
κρότερη από τη μονάδα και οι επόμενες συνιστώσες γίνονται
λιγότερο αξιόπιστες.
Εν κατακλείδι, η δομή της συσχέτισης δείχνει ότι και οι
δέκα μεταβλητές έχουν κάτι κοινό μεταξύ τους το οποίο μπο
ρεί να αναφέρεται ως οικογενειακή κατάσταση, αλλά και ότι
υπάρχουν διαφορές ανάμεσα στην επαγγελματική κατάστα
ση, την περαιτέρω μόρφωση και τα προσόντα και σε ένα μι
κρότερο βαθμό ότι υπάρχουν διαφορές ανάμεσα στις γενιές.
Θα επανέλθουμε σ' αυτό το παράδειγμα στο Κεφάλαιο 6.
Α νάλvση κυρίων συνιστωσών 2.61
Μετα~λψή
•
αiι
•
αiz
•
α; 3
.
α;4
•
a;s
•
α;6
Συνθήκες μόρφωσης
Χ3 -"
-1
-1
-" Χ4
-" Χ2 -" Χ3
• χs
Χβ-" -" Χ9
a;l
-1
-" ΧΒ
Χ7.... Χ1
-1
WoS MoD GrS PrB RgS 24Η Pan TliW Τσα [πΟ
World ofSport 1,00 0,58 0,62 0,51 0,30 0, 14 0,19 0,15 0,09 0,08
Match of the Day 0,58 1,00 0,59 0,47 0,33 0, 12 0,13 0,08 0,04 0,05
Grandstand 0,62 0,59 1,00 0,47 0,34 0, 14 0,18 0,13 0,07 0,08
Prof, Boxing 0,5 1 0,47 0,47 1,00 0,31 0, 12 0, 17 0,11 0,07 0,09
Rugby Special 0,30 0,33 0,34 0,31 1,00 0,12 0,15 0,06 0,05 0,10
24 Hours 0,14 0,12 0,14 0,12 0,12 1,00 0,52 0,39 0,24 0,27
Panorama 0,19 0, 13 0,18 0,17 0,15 0,52 1,00 0,35 0,20 0,20
This Week 0,14 0,08 0,13 0,11 0,06 0,39 0,35 1,00 0,27 0,19
Today 0,09 0,04 0,07 0,07 0,05 0,24 0,20 0,27 1,00 0,15
Line- UE 0,08 0,05 0,08 0,09 0,10 0,27 0,20 0,19 0,15 1,00
2 3 4 5 7 β 9 10
j
Σχήμα 5 .12 Γράφημα scree των ιδιοτιμών έναντι του αριθμού των συ
νιστωσών -δεδομένα για την τηλεθέαση
266 Ανάλυση nολυμι:ιαβλητωv δεδομένων για κοινωνικές επιστήμες
"" 24Hours
This Week .., .., Panorama
"" Today _
"" Line-Up
-1
"" Rugby
.., Boxing
Grandstan~ World of Sport
"" Match of Day
-1
Παραγοντική Ανάλυση
(ί = ], 2, .. .) (6.1)
όπου το C;, είναι η κατανάλωση ή οι δαπάνες για το κάθε ί
στοιχείο, Ι είναι το εισόδημα της οικογένειας, α; και β; η στα
θερά και η κλίση, αντίστοιχα, της παλινδρόμησης και e; μία
τυχαία συνιστώσα ή το κατάλοιπο, συγκεκριμένο στο C; με
μηδενικό μέσο, ανεξάρτητο του 1, το οποίο εξηγεί την υπο
λειπόμενη διακύμανση για τη γραμμή. Εάν διαπιστώναμε ό
τι αυτό το μοντέλο ήταν κατάλληλο για όλα τα στοιχεία των
δαπανών και ότι τα κατάλοιπα e; ήταν ασυσχέτιστα μεταξύ
τους, τότε θα είχαμε δείξει ότι το εισόδημα θα ήταν ο μόνος
ανιχνεύσιμος προσδιοριστικός παράγοντας των δαπανών.
Για το σταθερό εισόδημα, οι δαπάνες για το στοιχείο ί θα συ
μπεριφερόταν όπως μια τυχαία ποσότητα με μέσο α; + β;Ι και
τυπική απόκλιση που δίνεται από την τυπική απόκλιση των e;
και επειδή τα κατάλοιπα είναι ανεξάρτητα, όλη η συσχέτιση
μεταξύ των παρατηρούμενων μεταβλητών θα είχε αφαιρεθεί.
Αν όλα αυτά αποτελούν πειστικά συμπεράσματα (και υπάρ
χουν πολλά «αν») θα ικανοποιούμασταν με το ότι οι αμοιβαί
οι συσχετισμοί μεταξύ των αρχικών δαπανών εξηγήθηκαν α
πό την κοινή εξάρτησή τους με το εισόδημα. Επιπλέον, οι συ
ντελεστές παλινδρόμησης, β;, θα μας έλεγαν πόσο έντονα ε
ξαρτάται κάθε στοιχείο των δαπανών από το εισόδημα.
Στα περισσότερα πρα κτικά προβλήματα δεν υπάρχει κα
μία έτοιμη μεταβλητή, όπως το εισόδημα αυτού του παρα
δείγματος, για να την επικαλεσθούμε ως εξήγηση (ακόμα κι
αν υπήρχε, θα ήταν μη πρακτικό να συλλεχθεί επειδή για πα-
Ανάλυση πολυμεταβλητων δεδομένων για κοινωνικές επιστήμες
(ί = ], 2, ..., p) (6.2)
όπου το y μπορεί να ονομαστεί κοινός παράγοντας δεδομένου ό
τι είναι κοινός για όλα τα Χ;. Τα ei μερικές φορές ονομάζονται
συγκεκριμένοι ή μοναδικοί παράγοντες, δεδομένου ότι είναι
μοναδικοί για ένα συγκεκριμένο χ; (επειδή ο Spearman σκε
πτόμενος τα ei ως παράγοντες, ονόμασε το μοντέλο του μο
ντέλο δύο παραγόντων. Η σύγχρονη ορολογία λαμβάνει υπό
ψη της μόνο τον αριθμό των κοινών παραγόντων). Στο μοντέ
λο ενός παράγοντα, κάνουμε τη συνηθισμένη υπόθεση παλιν
δρόμησης, ότι δηλαδή το e; είναι ανεξάρτητο από το y και α
κολουθεί κανονική κατανομή με μέση τιμή μηδέν και τυπική
Παραγοντική Ανάλυση 2.77
(ί = ], ...,p) (6.3)
Corr (χι, χ 2 ) ) Ο,
Corr (χι, x2 ly)=O
Οι διαφορές στην ηλικία εξηγούν πλήρως τον προφανή
συσχετισμό μεταξύ του μεγέθους των ποδιών και της ικανό
τητας στο γράψιμο.
Παραγοντική Ανάλυση 281
(6.6)
Προσαρμόζοντας το μοντέλο
6.4 Ερμηνεία
Οι παραγοντικές επιβαρύνσεις
Communalities
Communalιues
Κελτικά 0,49
Αγ 1 \ικά 0,41
Ιστορία 0,36
Αριθμητική 0,62
Άλγεβρα 0,56
Γεω~ετeία 0,37
... Ο ρόλος του κοινωνικού επ1στήμονα στις μέρες μας έχε1 δ1εuρuνθεi.
Ο κο1νωνικός επ1στήμονας καλεiτα1 όχ1 μόνο να αναπτίιξε1 ένα θεωρη
τικό μοντέλο και να θέσει τις uποθέσε1ς τις έρευνας αλλά και να επ1-
λέξε1 την κατάλληλη στατ~στική μεθοδολογiα που θα τον Βοnθήσε1 να
επαληθεύσει ή όχι αuτjς τις υποθέσεις. Επiσnς καλεiτα1 να κρiνε1 και
την ετπστnμονική ορθότητα της στατιστ1κής ανάλυσης στην οποiα ε
κτiθετα1 μέσα από τις επ1στnμονικές δnμο01εύσε1ς ...
Ειρήνη Μουστάκη
ISBN 978-960-6647-94-9
Jυιn .ιιJι