You are on page 1of 7

Analiza componentelor principale

Analiza componentelor principale are ca obiectiv prezentarea sintetică a unui tabel de
date în care unităţile sunt descrise prin multiple variabile cantitative.
Această descriere trebuie să permită:
 o sinteză a informaţiei, variabilele descriptive sunt regrupate în factori sintetici, denumiţi
componente principale, astfel încât pierderea de informaţie să fie minimă;
 poziţionarea unităţilor prin raportare la componentele principale ceea ce va permite
punerea în evidenţă de tipuri de unităţi.
Studiul unui eşantion sau al unei populaţii poate fi considerat complet, de regulă, doar
dacă au fost măsurate sau evaluate foarte multe variabile. La prima vedere, fiecare dintre
variabilele măsurate ar putea părea a fi de aceeaşi importanţă, însă, ţinând seama de faptul că
între unele ar putea exista legături de dependenţă, am putea să descoperim că un număr mic
de variabile, independente între ele, explică suficient de bine fenomenul studiat. Această
problemă poate fi rezolvată cu ajutorul analizei componentelor principale.
Reducerea variabilelor iniţiale poate fi utilizată pentru uşurarea interpretării (avem un
număr mai restrâns de factori) şi de asemenea poate servi ca fază intermediară de calcul
prealabil în utilizarea altor metode de analiză multidimensională.
Astfel presupunem că n unităţi sunt caracterizate de p variabile
( )
p
X X X ,... ,
2 1
,datele se prezintă sub formă matricială, de dimensiunea n*p,
( )
ij
x X ·
i=1,n j=1,p
Informaţia cu care participă o unitate i în norul de puncte poate fi exprimată prin
distanţa de la punctul ce-l reprezintă, până la centrul de greutate al norului de puncte, de
coordonate mediile celor p variabile, respectiv:

·
− ·
p
j
j ij i
x x I
1
2
) (

Informaţia totală ( I ) este suma pătratelor distanţelor, aferentă celor n unităţi, în ipoteza
că fiecare unitate are aceeaşi pondere, unde:

·
·
n
i
I
1

·

p
j
j ij
x x
1
2
) (
mărime ce în mecanică este denumită inerţia norului de puncte.
Problema analizei componentelor principale constă în a reduce cele p variabile inţiale
într-un număr de q variabile denumite "componente principale" sau factori, q<p. Aceasta
presupune trecerea de la o matrice de date de dimensiune {n (unităţi) *p (variabile)} de
forma:
1
1
1
1
1
1
1
]
1

¸

·
np n n
ip i i
p
x x x
x x x
x x x
X
......
... .......... ..........
......
.... .......... ..........
......
2 1
2 1
1 12 11
la o matrice redusă, de dimensiune (n*q)
1
1
1
1
1
1
1
]
1

¸

·
nq n n
iq i i
q
f f f
f f f
f f f
F
......
.......... ..........
......
.......... ..........
......
2 1
2 1
1 12 11
Tehnica utilizată de A.C.P. pentru a trece de la p la q variabilele, q<p, constă în a proiecta
norul de puncte pe un subspatiu de dimensiunea q,
q
R
, printr-o deformare minimă posibilă,
respectiv, pierderea de informaţie să fie cât mai mică. Astfel considerăm o direcţie F în
spaţiu, ce poate fi exprimată prin vectorul u,
u =
( )
p
u u u ,.... ,
2 1

Considerând dreapta ce trece prin centrul de greutate şi are această direcţie, vom
putea proiecta fiecare punct al norului pe această dreaptă. Notând cu
i
f
lungimea
segmentului ce uneşte proiecţia punctului cu centrul de greutate, avem;
p ip i i i
u x u x u x f + + + · ....
2 2 1 1
Informaţia totală reţinută de aceste proiecţii este:

·
·
n
i
i u
f I
1
2
Scopul A.C.P. constă în determinarea acelor direcţii ce maximizează informaţia totală
reţinută, respectiv (maximizare în raport cu u):

·
+ + + ·
n
i
p ip i i u
u x u x u x I
1
2
2 2 1 1
) ... ( max max
cu restricţia ca:
1 ...
2 2
2
2
1
· + + +
p
u u u
Ca urmare trebuie identificate principalele direcţii (factori principali) ce asigură proiectarea norului
de puncte şi furnizarea informaţiei maxime.
Factorii principali (componente principale) trebuie să verifice următoarele condiţii:
variabilele descriptive iniţiale
( )
p
X X X ,... ,
2 1 sunt grupate în factori sintetici k
F
printr-o
combinaţie liniară, de forma:

·
·
p
j
j kj k
x a F
1

p k , 1 ·
factorii, componentele principale, sunt independenţi
0 ) , ( ·
m k
F F cor
m k ≠
Procedeul de rezolvare a analizei componentelor principale este prezentată pe scurt în
schema următoare:
Matricea datelor iniţiale
M( n*p)
Calculul matricii de varianţă-covarianţă
Vpp sau a matricii de corelaţie R

Extragerea axelor factoriale
(vectorii proprii a lui V sau R)
Alegerea celor k axe principale


Calculul coordonatelor Calculul corelaţiilor
unităţilor pe axele între axele principale
principale şi variabilele iniţiale

In general variabilele se exprimaă în unităţi de măsură diferite, deci sunt eterogene, prelucrarea
datelor sub formă iniţială nu se recomandă, din acest motiv trebuie centrate şi eventual reduse.
Dacă datele sunt omogene, pentru a găsi axele factoriale ne folosim de matricea de varianţă şi
covarianţă (V) având ca element general
'
jj
V
, covarianţa dintre variabilele j şi j',
'
j j ≠ iar
elementele de pe diagonala principală sunt varianţele
'
jj
V
a diferitelor variabile.
Această matrice V este simetrică, pătrată ( p*p ), cu suma elementelor de pe diagonală egală cu
varianţa totală a norului de puncte denumita “urma” matricii.

,
_

¸
¸
·
pp p p
p
p
V V V
V V V
V V V
V
.....
.......... ..........
.....
.....
2 1
2 22 21
1 12 11
pp tot
V V V V + + + · ...
22 11 -unde ''urma'' matricii V este varianţa totală a norului de puncte ce
exprimă informaţia totală ( I ).
Dacă datele sunt eterogene, după centrarea şi reducerea lor, matricea folosită pentru
determinarea axelor factoriale este matricea de corelaţie (R), unde
'
jj
r
reprezintă coeficientul,
de corelaţie dintre variabila j şi j',
'
j j ≠
, iar elementele de pe diagonala principală sunt egale
cu 1. In acest caz suma elementelor de pe diagonala principală este egală cu p respectiv
numărul de variabile.

,
_

¸
¸
·
1 .....
....... ..........
...... 1
...... 1
2 1
2 21
1 12
p p
p
p
r r
r r
r r
R
Principiul acestei metode este acela de a găsi succesiv un prim fator rezumând cel mai
bine informaţia conţinută în matricea iniţială, apoi al doilea factor, independent de primul,
rezumând cel mai bine informaţia reziduală şi se continuă până este reţinută toată varianţa
(informaţia). Deci fiecare componentă principală restituie o parte din informaţia iniţială, măsurată
prin varianţa sa,
K F
k
λ σ ·
2
unde k este o valoare proprie (1) a matricii V sau R, iar

·
K
K
urmaV λ
sau

·
K
K
p λ
.
Cunoaşterea informaţiei adusă de fiecare factor
K
F
ne furnizează date despre direcţia
axelor. Aceştia sunt vectorii proprii
K
u
asociaţi diferitelor valori proprii
K
λ
(2).
S-a demonstrat că:
axele factoriale (sau componentele principale) trec prin centrul de gravitaţie a norului de
puncte;
 axele factoriale sunt vectorii proprii a matricii de varianţă şi covarianţă (sau a matrici de
corelaţie);
 valoarea proprie asociată unei axe măsoară varianţa raportată prin acea axă ;
 prima componentă principală este vectorul propriu asociat celei mai mari valori proprii ; a
doua este asociată valorii proprii următoare etc... , deci p
λ λ λ    ....
2 1 .
Componentele principale (axele) sunt caracterizate de următoarele proprietăţi:
axele sunt ortogonale şi în consecinţă sunt independente;
media fiecarei componenta este nulă;
 cea mai mare parte din varianţa totală a norului de puncte este concentrată pe primele axe.
Alegerea numărului de axe este o problemă importantă. Pentru aceasta există mai multe
metode. Cea mai uzuală este cea a calculării varianţei explicite adusă de fiecare axă şi
determinarea celei cumulate.

·
·
p
K
K
F V
1
1
1
) exp(
λ
λ


·
+
·
p
K
K
F F V
1
2 1
2 1
) , exp(
λ
λ λ
etc.

Astfel se poate fixa un prag minim pentru varianţa explicită cumulată de exemplu să
fie în jur de 80% . In momentul în care acest prag este atins se consideră că sunt suficiente axele
retinute.
Sigur mai exista şi o metoda grafică cat şi una empirică.
Calitatea globală a reprezentării va fi măsurată prin partea varianţei explicată de
planul principal ( )
2 1
, F F , unde :

·
+
·
p
K
K
F F V
1
2 1
2 1
) , exp(
λ
λ λ

reprezentarea fiind bună dacă Vexp este apropiată de 1.
In general este foarte important să poţi interpreta axele factoriale. Pentru aceasta
este necesar să revenim la variabilele iniţiale. Astfel vom determina importanţa variabilei
iniţiale în formarea factorilor calculând coeficienţii de corelaţie dintre variabilele iniţiale şi
axele factoriale (componentele principale).
Kj
j
k
F X
u r
K j
σ
λ
·
Fiecare variabilă fiind centrată şi de normă 1, poate fi reprezentată în spaţiul
n
R
,
printr-un punct situat în cercul de centru 0 şi rază 1.
Deoarece componentele principale sunt necorelate este uşor de stabilit expresia de
calcul a coeficientului de corelaţie multiplă, astfel:
'
'
2 2
/
K
j K j
K
K j
F X F X
F F X
r r R + ·
unde acest coeficient este distanţa de la centrul la punctul care reprezintă variabila j
X
.
Este deci posibil să vedem care coeficienţi de corelaţie sunt mai mari pentru un
factor dat, ca să găsim variabilele iniţiale care contribuie cel mai mult la acel factor şi să ajute
la interpretarea lui. In general se reţin valorile mai mari de 0,50.
Numărul de axe fiind fixat, este posibil ca luând axele două câte două să obţinem
o reprezentare grafică a rezultatelor. Astfel vom reprezenta unităţile observate prin
coordonatele axelor factoriale şi variabilele iniţiale prin coeficientul de corelaţie. Practic acest
lucru este posibil atunci când numărul de axe reţinute nu este mai mare de 3.
In plus mai putem determina contribuţia relativă sau absolută a unităţilor la inerţia
asociată axelor factoriale.
Astfel :
( ) ( )

·
+
· ·
p
j
ij
iK
iK
i
x
f f
1
2
2 2
2
'
cos λ ρ
o bună reprezentare a unităţii i pe planul [Fk,Fk') corespunde unei valori a lui
i
ρ
aproape de
1.
Cordonatele componentelor principale se determină din următoarea relaţie:
F = [X] I U
unde: x - matricea initiala
I - matricea unitate
U - vectoru propriu.

[ ]
k k
IU X F ·

( )
nk ik k k
f f f F ,... ,...
1
·
Aceste coordonate permit reprezentarea punctelor unităţi în planul [Fk,Fk' ],
putându-se astfel stabili tipuri de unităţi omogene în raport cu componentele principale
analizate.
Ajutor de reamintire
(1) Determinarea valorilor proprii este realizată cu ajutorul determinantului ∆de la
matricea
[ ] I V λ −
, unde I este matricea unităţi şi λ este vectorul valorilor proprii .
Valorile proprii sunt soluţia ecuaţiei ∆=0.
(2) Vectorul propriu Uk asociat valorii proprii
K
λ
este determinat cu ajutorul rezolvării
ecuaţiei [V] [Uk] =
K
λ
[Uk].
Bibliografie:
1.Lebart L., Morineau A., Piron M., Statistique exploratoire multidimensionnelle, Dunod,
1995, pg.32-48.
2. Volle M., Analyse des donnees, Ed. Economica, Paris, 1997, pg.108-129.
3. Saporta G., Stefanescu V., Analiza datelor & informatica, Ed. Economica, Bucuresti, 1996,
pg. 68-84.