Cuprins

I. Descrierea datelor................................................................................................................................. 2 Descrierea variabilelor .............................................................................................................................. 2 Statistici descriptive .................................................................................................................................. 4 II. III. Analiza componentelor principale ...................................................................................................... 13 Analiza cluster ................................................................................................................................. 27

Metodele ierarhice................................................................................................................................. 27 Metoda centroidului ........................................................................................................................... 27 Metoda lui Ward ................................................................................................................................. 31 Algoritmii de partitionare ....................................................................................................................... 34 Algoritmul celor k medii (k – means) .................................................................................................. 34 IV. V. VI. Analiza discriminanta ...................................................................................................................... 37 Analiza factoriala................................................................................................................................. 41 Anexe ................................................................................................................................................ 1

I.

Descrierea datelor

Matricea de date contine 30 de observatii, reprezentand tari din Europa pentru care sunt luate in considerare 11 variabile. Datele sunt preluate de pe site-urile www.eurostat.com si http://hdr.undp.org/en/reports/ si incearca sa surpinda realitatea economica si sociala din statele considerate in anul 2008.

Descrierea variabilelor
1. Prima variabila masurata pentru cele 30 de state este Produsul Intern Brut (PIB). Acesta reprezinta valoarea cumulata a bunurilor finale produse in economie in anul de referinta. Pentru a asigura comparabilitatea intre observatii am considerat produsul intern brut pe cap de locuitor, exprimat in euro. 2. Al doi-lea indicator considerat este rata somajului, o masura a fortei de munca neutilizate existenta in economie, calculandu-se ca raport intre numarul somerilor si populatia activa.Se pune problema ca, in diferite tari ale Europei, notiunea de somer este interpretata diferit, iar acest lucru face dificila comparatia celor 30 de observatii dupa acest criteriu. Pentru a exista comparabiliate intre state am luat in considerare rata somajului standardizata B.I.M. Aceasta se calculează ca raport între numărul şomerilor în sens B.I.M (Biroul international al muncii) şi populaţia activă totală si are cea mai mare sferă de cuprindere, fiind cea mai utilizată în comparaţiile internaţionale; Şomerii în sens B.I.M. sunt persoanele de 15 ani şi peste care în decursul perioadei dereferinţă îndeplinesc simultan următoarele condiţii: - nu au un loc de muncă şi nu desfăşoară o activitate în scopul obţinerii unor venituri; - sunt în căutarea unui loc de muncă, utilizând în ultimele 4 săptămâni diferite metode pentru a-l găsi: înscrierea la Oficiul de forţă de muncă şi şomaj sau la agenţii particulare de plasare, demersuri pentru a începe o activitate pe cont propriu, publicarea de anunţuri sau răspunsuri la anunţuri, apel la rude, prieteni, sindicate etc; - sunt disponibile să înceapă lucrul în următoarele 15 zile, dacă s-ar găsi imediat un loc de muncă; Sunt incluse, de asemenea: - persoanele fără loc de muncă, disponibile să lucreze, care aşteaptă să fie rechemate la lucru sau care au găsit un loc de muncă şi urmează să înceapă lucrul la o dată ulterioară perioadei de referinţă; - persoanele care în mod obişnuit fac parte din populaţia inactivă (elevi, studenţi, pensionari), dar care au declarat că sunt în căutarea unui loc de muncă şi sunt disponibile să înceapă lucrul. 3. Urmatorul indicator il reprezinta venitul salarial net anual. Acest indicator reprezinta suma de bani pe care o castiga, in medie, fiecare cetatean al unui stat, intr-un an, dupa ce s-au eliminat taxele si impozitele. Acest indicator influenteaza in mod direct consumul si nivelul de trai al populatiei.
2

4. Indicatorul sarcina fiscala asupra costului fortei de munca arata cat la suta din suma platita de un angajator pentru factorul munca se duce catre bugetul de stat, prin intermediul impozitelor. Acest indicator are o influenta inversa asupra dezvoltarii economice, intrucat creste pretul factorului munca, scade venitul mediu al populatiei (si prin urmare consumul) si descurajeaza investitiile. 5. Rata saraciei se calculeaza ca raport intre numarul persoaneleor care traiesc sub pragul absolut al saraciei si populatia totala. Pragul absolut de saracie reprezinta expresia monetara a unui "cos" de bunuri si servicii considerat a constitui "minimul necesar" pentru o viata "normala". Acest prag se estimeaza pe baza cheltuielilor totale de consum, prin majorarea pragului alimentar al saraciei cu un supliment pentru bunuri nealimentare si servicii. Componenta nealimentara a fost estimata pentru segmentul gospodariilor esantionate, a caror cheltuieli de consum pe persoana s-au plasat în intervalul unei devieri de 10% (+/-) de la nivelul pragului alimentar al saraciei. 6. Rata inflatiei masoara modificarea preturilor in anul de referinta (2008) fata de anul precedent.Nu se poate surprinde evolutia pretului tuturor produselor, ci evolutia la nivel mediu a preturilor, calculata cu ajutorul deflatorului PIB.

deflatorului PIB=

.

Ri= deflatorului PIB-100

In teoria economica se considera ca o rata a inflatiei intre 1% si 3% este benefica, intrucat incurajeaza producatorii sa-si mentina activitatea. In general, o rata a inflatieie peste acest prag nu este agreata, intrucat influenteaza negativ puterea de cumparare (este vazuta ca o taxa ascunsa). 7. Indicele dezvoltarii umane este un indicator complex care are in vedere speranta de viata la nastere, gradul de alfabetizare al populatiei adulte, rata bruta de cuprindere in invatamant si PIB pe locuitor la paritatea puterii de cumparare. Se considera ca IDU compara mai bine nivelul de dezvoltare umana a tarilor decat PIB-ul, cu toate ca acest concept (dezvoltare umana) este mult mai adanc si mai bogat decat ceea ce poate fi suprins printr-un indice compozit sau chiar printr-un set detaliat de indicatori statistici. 8. Rata neta a migratiei internationale se calculeaza ca raport intre migratia neta (imigranti- emigranti) si numarul mediu al populatiei. 9. Cheltuielile publice cu sanatatea (ca procent din total cheltuieli guvernamentale) sunt o masura a atentiei acordate de guvernele statelor observate sistemului public de sanatate, atentie reflectata prin fondurile repartizate. 10. Cheltuielile publice cu educatia (ca procent din total cheltuieli guvernamentale) arata cat % din bugetul statelor observate a fost directionat spre educatie in anul 2008. 11. Ultima variabila considerata este populatia care a absolvit studii superioare (ca procent din populatia peste 25 de ani)

3

Statistici descriptive
Pentru simplificare, in continuare voi numi variabilele V1, V2,...V11 , in ordinea in care au fost prezentate anterior. Inainte de a calcula statisticile descriptive am completat valorile lipsa prin metoda mediei celor mai apropiati vecini. In tabelul 1 sunt prezentate statistici generale privitor la cele 11 variabile
Descriptive Statistics N (Numarul de observatii) V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 V11 Valid N 30 29 30 30 30 30 30 30 30 30 30 29

Minimum (Valoarea minima) 4000.00 3.10 2229.54 17.70 8.60 -1.70 .83 -.60 9.90 6.20 9.00

Maximum Valoarea maxima) 78100.00 18.00 28587.14 49.40 25.70 16.30 .97 1.30 19.60 18.00 31.70

Mean (Media) 26892.366 7 8.6741 15578.495 0 35.5433 15.5100 1.9167 .9248 .2800 14.4833 12.0692 21.1692

Std. Deviation ( Abaterea standard) 17313.24139 3.58819 8617.79554 8.18934 4.07992 3.20883 .04416 .36897 2.55182 2.49908 6.78629

Variance (Varianta) 29974832 7.344 12.875 74266399. 931 67.065 16.646 10.297 .002 .136 6.512 6.245 46.054

Tabelul 1 Observand diferente semnificative intre valoarea minima si cea maxima a fiecarei variabile, am construit diagrama boxplot pentru a vedea daca exista valori aberante. Comanda R: boxplot(variabila)

V1

V2
4

V3 V4 V5 V6 V7 5 V8 .

V2. Pentru a verifica apropierea de normala a noilor variabile obtinute prin eliminarea outleierilor voi rula obtiunea Sumary Statistcs in Excel.V9 V10 V11 Dupa cum se observa din diagramele boxplot. V6. Rezultatul obtiunii este vizibil in tabelul de mai jos. 6 . V8 contin outlieri. V4. variabilele V1. si voi proceda la eliminarea lor .

602778 V11 21. V5.6 2.24631 0.393774 35.628817 V8 0.47 #N/A 8617.341 27750 #N/A 15737.40352 V3 15578.V1 Mean Standard Error Median Mode Standard Deviation Sample Variance Kurtosis Skewness 26302.098402 -0. In continuare doresc sa vizualizez si grafic apropierea variabilelor fata de normala si de aceea reprezint grafiv densitatea de probabilitate. Astfel.634014 58. in liniile Kurtosis si Skewness imprastierea si respectiv inaltimea celor 11 variabile.387 16578.95 0.565559 7.551819 6.465896 14.377418 1.2 2.81 1.465 0.96 0.49929 0.079921 16.239504 21.7589 -0.057272 0.3 6.95 19.3 9.05764 V9 14.51 0.06429 V4 35.55 30.595716 -0.25 0.07 0.516 -0. V10 au o ditributie apropiata de normala. Cu cat kurtosis si skewness sunt mai apropiate de 0.37 2873.789045 46.313691 0.7 4.067204 4.35426 V10 12.1171 0.633333 0.17 1.475615 V7 Mean Standard Error Median Mode Standard Deviation Sample Variance Kurtosis Skewness 0.58402 -0. o combinatie intre densitatea de probabilitate si boxplot.092133 Tabelul 2 In tabelul 2 putem vizualiza.48333 0.494368 0.044391 0. putem spune ca V2.511782 -0.1395 -0.4 7.276667 0.23379 0.48E+08 -0.468788 1.8 3.008105 0.5 1573.94 2.63407 -0.499262 6. in timp ce V6 este cea mai atipica din acest punct de vedere.65 34.001971 -0.925333 0. In plus voi prezenta si graficul vioara.161647 V5 15.097695 9.45 15.744888 14.4 0.29317 V6 1. Comanda R: d= density(variabila) plot(d) Vioplot(variabila) 7 .86789 V2 8.27817 -0.456301 12.8 7.64576 -0.273333 1. cu atat distributia variabilelor e mai apropiata de distributia normala.09114 -1.05 0 2.11926 0.796 74266400 -1.

V1 Variabila V1 are o imprastiere prea mare si o asimetrie la stanga fata de normala. adica exista multe valori foarte mici si multe valori foarte mari. departate de medie. V2 Variabila V2 e destul de apropiata de normala. dar “cozile“ distributiei sunt prea groase. V3 8 .

Variabila V3 are o distributie foarte diferita de cea normala. 2 distributii mai apropiate de normala. astfel. 9 . V5 Variabila V5 este asimetrica la stanga. V4 Variabila V4 este asimetrica la stanga. Am obtine. existand putine valori care se grupeaza in jurul mediei si foarte multe valori extreme. Pentru a normaliza aceasta variabila am putea considera impartirea ei in doua grupe: tari cu venit net anual mic si tari cu venit neta anual mare.

V6 Asimetrie la stanga V7 Asimetrie la dreapta 10 .

V8 V9 11 .

V10 V11 12 .

750559 0..87782 -0. Analiza componentelor principale In scopul analizei datelor trebuie sa analizam daca cele 11 variabile sunt corelate.6859 0.614163 V2 1 -0.098 -0. V3-V1.2438 0.5875 1 0. care ne impiedica sa vedem informatia.291075 -0.0457 0.3758 0.3903 -0.1213 1 -0. prin urmare are sens sa aplicam metoda analizei componentelor principale.. datorita dimensionalitatii foarte mari. VT=∑ VG= |Sn*n| .0972 0.1993 0. V7-V3. determinantul matricei de covarianta Niciuna din aceste masuri ale informatiei totale nu este buna.2906 0.2573 0.48029 0. deci ( ) Noile variabile trebuie sa fie. Prin analiza componentelor principale putem reduce aceasta dimensionalitate si. in acelasi timp.11571 -0. Wk vor fi necorelate doua cate doua..024 -0. notate W1. exista multe variabile puternic corelate (V7-V1. sau dimensiuni ortogonale ale spatiului observatiilor.33301 -0.4369 -0.708 0.326179 1 0. pentru a putea prelua cat mai multa informatie din acestea.4052 -0. sa pierdem cat mai putina informatie. pentru a 13 . Aceste noi variabile. V9.0988 -0. Tot redundanta informationala este motivul pentru care nu putem compara cantitatea de informatie continuta de fiecare variabila.521379 0.1882 1 0.2742 0.8695 0. deoarece aduna de mai multe ori informatia redundanta.0401 -0. W2.0222 V3 V4 V5 V6 V7 V8 V9 V10 V11 1 -0.5415 -0. Metoda se bazeaza pe eliminarea redundantei informationale.0672 -0. Pentru a elimina problema redundantei informationale ACP isi propune sa construiasca niste noi variabile independente.3932 -0.313 -0.1666 -0.4404 -0.561 1 0.2321 -0. functie de vechile variabile.1912 -0.691972 0.4478 0.324 1 -0.64828 1 Dupa cum putem vedea.II. Cantitatea totala de informatie continuta in date se poate exprima prin varianta totala (VT) sau varianta generalizata (VG). Vom considera o dependenta liniara.3867 -0.4338 0.2856 0.5243 -0.5156 0. urmarind matricea de corelatie V1 V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 V11 1 -0. Cantitatea de informatie continuta de o variabila poate fi masurata prin varianta.7076 1 -0.V1) .844616 0.46613 -0.4772 0. in acelasi timp.19182 0.303 0. La momentul actual datele noastre nu se pot constitui in informatie.

W2. Prin urmare.. . Informatia continuta in W1..Wj ) = 0. Toti pasii prezentati mai sus pot fi realizati si pe matricea de corelatie. Wk astfel incat sa eliminam problema redundantei informationale.. Wk=γ1*V1+ W1=α1*V1+ γ 2 * V2+. γ vectori proprii ai matricei de covarianta. cu valorile proprii corespunzatoare vectorilor proprii cu ajutorul carora au fost obtinute aceste variabile. V2 . putem renunta la o parte din variabilele nou obtinute.Vn ) Se pune problema determinarii ponderilor α1 ... . Variabilele W1. + β n * Vn .. + αn * Vn W2=β1*V1+ β 2 * V2+. W2. ..simplifica modul de lucru si deoarece o functie mai complicata nu ar aduce informatie suplimentara. OBS: Daca datele sunt standardizate matricea de covarianta este egala cu matricea de corelatie.. αn ) V= (V1. Wk este egala cu varianta lor si. Vom reduce dimensionalitatea prin renuntarea la variabilele corespunzatoare celor mai mici valori proprii.. β... ... Se demonstreaza ca aceasta conditie este indeplinita daca se considere α... In acest moment putem obtine W1. pentru a pierde cat mai putina informatie.. pastrand doar variabilele cu cantitatea de informatie cea mai mare Unde α = (α1 ..... Wk pot fi ordonate dupa cantitatea de informatie continuta... αn astfel incat cov(Wi. α2 . pasii care trebuie urmati in ACP sunt:      Calculul matricii de covarianta a variabilelor initiale Calculul valorilor proprii si a vectorilor proprii ai matricei de covarianta Construirea unor noi variabile ca o combinatie liniara de variabilele initiale si vectorii proprii calculati Ordonarea variabilelor noi obtinute descrescator dupa cantitatea de informatie continuta Un compromis intre cantitatea de informatie si reducerea dimensionalitatii. + γ n * Vn W1= α2 * V2+.. + αn * Vn ⇿ αT *V α2 .. pentru a standardiza datele si a evita problemele legate de unitatile de masura diferite 14 .. . Pentru a rezolva si problema dimensionalitatii datelor. .. .. W2. ordonand valorile proprii ale matricei de covarianta.. tot odata. W1=α1*V1+ α2 * V2+.

Tot in tabelul 3.83% din variatia totala. in timp ce 4 componente principale ar retine 82. pentru a putea stabili cate variabile retin in analiza rulez comanda fara a specifica numarul de componente principale proc princomp data=date1 out=comp outstat=acp . pe linia i este prezentat cat % din variatia totala explica primele i componente principale. Mai intai. deoarece sunt 4 valori proprii mai mari decat 1. run. In Tabelul 3 sunt prezentate doar valorile proprii. 1) Fig. Astfel. In coloana cumulative.In continuare voi aplica metoda analizei componentelor principale asupra setului initial de date cu 11 variabile. Se obtin 11 valori proprii. cu ajutorul SAS. Aplicand criteriul procentului de acoperire am putea retine in analiza 3 sau 4 componente. analizand tabelul 3 putem spune ca primele 3 componente principale retin 72. var V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 V11.82% din variatia totala continuta in cele 11 variabile initiale. Informatiile din tabel sunt reprezentate grafic in figura alaturata (fig. 1 15 . 11 vectori proprii si 11 componente principale. Tabel 3 Aplicand criteriul Kaiser ar trebui sa retinem in analiza 4 componente principale. in coloana proportion este prezentat cate procente din variatia totala explica fiecare componenta principala.

Tabel 4 Valorile proprii ale matricei de corelatie sunt egale cu variatia componentelor principale.2 In ciuda rezultatelor indicate de criteriul lui Kaiser si criteriul pantei voi alege numarul de componente principale ghidandu-ma dupa criteriul variantei explicate. ma voi multumi cu o varianta totala explicata de 72. Si anume.82 % cu ajutorul a 3 componente principale. In tabelul 4 sunt prezentate primele 3 valori proprii ale matricei de corelatie. var V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 V11. deoarece interpretarea ulterioara a celor 3 componente este mai convenabila.In figura 2 este prezentat graficul Scree plot pe baza caruia se poate aplica criteriul pantei. din tabelul 4 putem conchide ca prima componenta principala va avea varianta 5. Prin urmare rulez comanda SAS specificand numarul de componente principale n=3 si solicitand toate graficele reprezentative. Fig. Conform acestui criteriu ar trebui retinute in analiza 4 componente principale.133 si 16 . proc princomp data=date out=comp1 outstat=acp1 n=3 plots=all. Criteriul pantei spune ca numarul de componente principale retinute in analiza se determina facand o taietura verticala in Scree plot astfel incat la dreapta taieturii sa ramana o dreapta cu panta aproximativ egala cu 0. Astfel. run.

In tabelul 6 sunt prezentata componentele principale Prin1 0.465402157 -1.0903764 2.51690252 0.074641842 . existand o legatura directa puternica intre acestea.097085358 -0.543759 1.365989454 0.616932074 1.694172154 Prin2 -0. corespunzatori celor 3 valori proprii maxime. Tabel 5 Componentele principale obtinute prin inmultirea variabilelor initiale cu cei 3 vectori proprii de mai sus.58747308 0.693036632 -2.196303 0. V5. Intre componenta principala 1 si variabilele V2.959841 2.160614272 0. In tabelul 5 sunt prezentati vectorii proprii ai matricei de corelatie.877048 0.63167322 1.334788 -1. Analizand vectorii proprii putem preciza puterea si directia legaturii dintre variabilele initiale si componentele principale.va cuprinde in proportie de 46.964689406 0. A 3-a componenta principala va avea varianta 1.497671 -0.526399103 2.772111 -0.450651689 -2.21% din varianta variabilelor initiale.8541948 0.878378414 -0.714945 -1.791835179 2.219078287 -2.531757 -0.7229643 -1.970746271 -3.400506553 1. V4. adica 11.057588811 0.75604367 3.292038374 -3.4923255 -0. Impreuna cu prima variabila cuprinde 61.246227 17 Prin3 0.61% din varianta variabilelor initiale.658821036 -0.442803325 0.54% din varianta variabilelor initiale.276.060989163 0. A 2-a componenta principala va avea o varianta de 1.82% din informatia continuta in variabilele initiale.1199594 -1. Astfel.87903457 -1. V6 exista o legatura inversa.630804818 -0.962231494 2.441410628 0. iar impreuna cu primele 2 componente principale cuprinde 72.599 si va explica 14.066589348 -1.67% informatia din variabilele initiale. variabila V1 este reprezentata cel mai puternic in componenta principala 1.

256227265 0. In figura 3 este prezentata Component Score Matrix.043067001 -0.516974004 -0. voi nota cele 3 componente principale W1.131336014 2. In cadranele simetrice fata de diagonala principala sunt scree plot-uri identice. Astfel.546404 -0.368702608 -1.442112 0.940281575 1. adica 6 scater plot.913933 -0. dar rasturnate la 900.697114 -0. Aceasta contine.-1. In continuare. 18 .364657261 3.83% din informatia continuta in datele initiale.55943407 -1.981451659 -1.302591735 -2.083632753 1.9965975 0.987385 0.111220687 0.859376 -0.566524 0. fara a pierde prea multa informatie despre acestea.139382966 4.091300436 0.904506918 -0. W3.757048235 -1. In celelalte cadrane este reprezentat norul de puncte a celor 30 de tari in spatiul a cate 2 componente principale.483780494 -1.1395435 0.78424023 1.048403354 -0.7581967 -1. Din acestea putem observa ca cele 3 componente au o distributie apropiata de normala. Sunt cadrane.037291224 Tabel 6 Cu ajutorul componentelor principale putem caracteriza obiectele (tarile) prin doar 3 noi variabile. am transformat spatiul cu 11 dimensiuni in care erau reprezentate variabilele initiale intr-un spatiu cu doar 3 dimensiuni ortogonale.178567 0.012682979 1.17962925 -0.72973 -1.918620371 -0. cu frecvente mai mari in jurul mediei si frecvente reduse ale valorilor extreme.87836162 -4.773842484 -0.371312 -0. pe diagonala principala histogramele celor 3 componente principale.811263 2.948734 0. W2. Am adaugat in fiecare cadran cate o eticheta rosie pentru a indica variabilele in functie de care se face reprezentarea tarilor.203497566 0.852929101 1.153170581 -2. in loc de cele 11 initiale si pastram 72.002255961 0. in care este mult mai usor de observat asemanarile si deosebirile dintre obiecte.85596891 0.

In celelalte cadrane nu prea se realizeaza gruparea punctelor in jurul unei drepte. 19 .W1 (W2) W1 (W3) W2 (W1) W2 (W3) W3 (W1) W3 (W2) Fig. si de asemenea intre W2 si W3. 3 Analizand scater plot-urile putem sesiza o usoara legatura directa intre W1 si W3 . In graficul Component Pattern Profiles (fig. Dar voi mai reveni asupra aspectului legaturilor dintre componentele principale. 4) este reprezentata corelatia dintre cele 11 variabile initiale si componentele principale. deci putem spune ca nu exista legatura intre variabile.

dar pentru usurinta interpretarii componentelor principale o voi considera ca fiind reprezentata de W3. V7. V8. Pentru a putea interpreta economic componentele principale trebuie sa revenim la interpretarea economica a variabileor initiale V1 V2 V3 V4 PIB Rata somajului Venitul salarial Sarcina fiscala 20 . V5. W2 este puternic corelata cu V4. V5. V6 Variabila V5 este reprezentata in mare masura atat in componenta W1 cat si in W3. Astfel:    W1 este puternic corelata cu V1. fie ea pozitiva sau negativa. V10. Putem ajunge la concluzia ca componentele principale preiau mai multa informatie de la variabilele cu care au corelatie mai mare. V3. V9.Fig. 4 Analizand acest grafic putem grupa variabilele initiale in jurul componentelor principale. in functie de componenta cu care au corelatie maxima. V11 W3 este puternic corelata cu V2.

V7.1.Venit salarial .Absolventi studii superioare nivel de trai  W2: nivelul educatiei  W3: .Rata neta a migratiei .IDU . nivelul educatiei (W2) si problemele sociale (W3).V8.Cheltuieli cu educatia . 5. in continuare vom lucra cu cele 30 de tari caracterizate prin 3 variabile: nivelul de trai (W1).V5.PIB .2.V10.Rata saraciei . 5.V6 W1: .Sarcina fiscala .V5 V6 V7 V8 V9 V10 V11 W1 W2 W3  Rata saraciei Rata inflatiei IDU Rata neta a migratiei Cheltuieli cu sanatatea Cheltuieli cu educatia Absolventi studii superioare V1.V9 V4.3) 21 .Rata inflatiei probleme sociale Avand in vedere cele prezentate mai sus.Rata somajului . 5. Tot informatii cu privire la preluarea informatiei din variabilele initiale in fiecare componenta principala pot fi citite si in graficele component pattern (fig.Cheltuieli cu sanatatea .V3.V11 V2.

2 22 .V11) Variabilele puternic corelate cu W3 sunt V2. V5 – pozitiv si V6 – negativ Variabilele grupate in dreapta au corelatie puternica cu W1 Fig. 5. V9. V11 au o corelatie puternica pozitiva cu W2. V10.7) cu W1 si au o corelatie foarte slaba cu W2 ( < 0. V3. Variabilelele V10.Variabilele V1. V4. V4 are o corelatie negativa cu W2 Fig. V9 au o corelatie puternica pozitiva (>0.2 ) . V8. 5. V7.1 Variabilele apropiate de axa orizontala au o corelatie foarte slaba cu W3 (V1. V8. V7. V3.

nivel al educatiei si probleme sociale. dar este dificil sa observam asemanari sau deosebiri intre observatii analizand tabelul. V10. 5. voi incerca sa caracterizez cele 30 de observatii in noile dimensiuni : nivel de trai. V2 si V5 au corelatie puternica cu W3. 23 . Pentru a putea analiza comparativ observatiile mai usor. V11 au corelatie puternica cu W2 Fig.Variabilele grupate in jurul intersectiei celor doua axe sunt slab reprezentatate atat in W1 cat si in W2 V6.3 In continuare. Caracterizarea completa a observatiilor in acest spatiu tridimensional este prezentata in tabelul 6. vom reprezenta grafic puctele din tabelul 6.

Am incercat sa fac o grupare a tarilor in functie de nivel de trai si educatie. Luxemburg. Astfel. La polul opus sunt tarile cu un nivel de trai scazut. Franta. Finlanda. dar un nivel al educatiei foarte ridicat. Germania. Italia si Austria). am observat ca exista tari cu un nivel de trai peste medie. Spania.Nivelul educatiei Nivel de trai Fig. Slovacia si Slovenia -nivel de trai ridicat (negru) : Belgia.1 putem observa ca tarile au o distributie normala din punct de vedere al nivelului de trai. dar tind sa se grupeze in jurul unui nivel scazut al educatiei. Danemarca. in functie de nivelul de trai: -nivel de trai scazut (albastru) : Bulgaria. Romania. pe care le-am incercuit cu verde ( Estonia. Ungaria si Polonia -nivel de trai mediu (galben) : Grecia. Letonia si Lituania) Tarile cu un nivel al educatiei mediu le-am impartit in 3 grupe. dar cu un nivel al educatiei foarte scazut. 6. Irlanda. Elvetia si Turcia 24 . Malta. pe care le-am incercuit cu rosu (Cehia. Olanda. Regatul Unit. Suedia. fapt ce putea fi observat si din histogramele din figura 3.1 Din figura 6.

2 Reprezentand tarile in spatiul nivel de trai – probeleme sociale ma asteptam ca punctele sa se grupeze in jurul une drepte. Cu toate acetste exista si paradoxuri: tari cu un nivel de trai scazut. 25 . Se remarca si tari foarte asemanatoare din punct de vedere al acestor doua caracteristici considerate: 3-16 Bulgaria – Ungaria. si probleme sociale mici (Romania 21) si tari cu un nivel de trai ridicat si probleme sociale mari (Irlanda 7).Norvegia (28) si mai ales Islanda (27) se remarca avand atat un nivel de trai cat si un nivel al educatiei foarte ridicat Probleme sociale Nivel de trai Fig. 15-19 Luxemburg – Austria. 6. adica tarile cu un nivel de trai scazut sa aiba probleme sociale mai ridicate si invers. 5-10 Germania – Franta.

iar cele reprezentate cu rosu au nivel de trai ridicat. In plan sunt surpinse caracteristicile nivel al educatiei si probleme sociale. analiza componentelor principale ne-a permis sa realizam sintetizare informationala si sa caracterizam un sir de observatii prin 3 caracteristici in loc de 11. 25.Fig. Finlanda. Suedia si Norvegia (tarile nordice). Tarile reprezentata cu albastru au nivel de tari scazut. 7 In figura 7 se incearca o reprezentare tridimensionala a tarilor. am putut realiza comparatii intre observatii. 24. Putem observa ca se formeaza grupuri de tari asemanatoare dupa toate cele 3 componete principale: 4. 26 adica Danemarca. Astfel. Cea mai apropiata tara de Romania (21) este Ungaria (15). iar componenta nivel de trai este reprezentata prin colorarea punctelor pe o scala de la albastru la rosu. In concluzie. 26 .

Metoda centroidului calculeaza distanta intre doua clase A si B ca fiind distanta euclidiana intre centroidul clasei A si centroidul clasei B. Dendrograma rezultata este prezentata in figura 8. Cu ajutorul analizei cluster ne propunem impartirea celor 30 de obiecte in clase cat mai omogene in interior si cat mai eterogene intre ele. In impartirea pe clase voi lua in considerare doar 5 variabile de interes (PIB. proc cluster data=date outtree=tree method=centroid plots=all standard. sau cu ajutorul unor algoritmi de partitionare Metodele ierarhice se numesc astfel deoarece exista o ierarhie intre clase.run. care genereaza diferite metode ierarhice de analiza cluster.III. Analiza cluster Clusterizarea este tot o forma de sinteza informationala. 27 . rata somajului. Repartizarea obiectelor pe clase se poate face cu ajutorul unor metode ierarhice. si odata grupate. Se grupeaza mai intai obiectele aflate la distanta minima. var V1 V2 V3 V6 V7. venitul salarial net. rata inflatiei si indicele dezvoltarii umane) din cele 11. si se grupeaza cu alte clase pe baza distantei intre clase. fiecare clasa mai mica fiind inclusa intr-o clasa mai mare. pana cand se ajunge la o singura clasa. In continuare. voi aplica in SAS metoda centroidului pentru a grupa cele 30 de tari pe clase. Exista mai multe metode de calcul a distantei intre clase. nu variabilele. doua obiecte devin o clasa. dar vizeaza obiectele.

putem aproxima distanta dintre centroizii celor doua clase. 7). Islanda. Fig. prezentate in figura 9. adica Belgia si Germania. Marea Britanie. aflandu-se la o distanta mai mare de 1.1 de centroidul acestei clase. SAS pune la dispozitie trei criterii. Pentru a stabili numarul optim de clase care trebuie pastrate. dupa cum am putut observa si din reprezentarea in planul componentelor principale (fig. De exemplu. Urmatoarele obiecte care formeaza o clasa sunt 24 si 25.Fig. Cel mai indepartat obiect de celelalte este 27. care. La aceasta clasa se adauga ulterior obiectul 26. 9 28 . din figura 8 putem observa ca cele mai apropiate obiecte sunt 1 si 5. Islanda se adauga ultima la clasa formata de celelalte tari. adica Finlanda si respectiv Suedia. Ducand o perpendiculara din punctul in care cele doua obiecte se unesc pe axa absciselor. aflata la o distanta de aproximativ 0.2 de centroidul clasei formata din Finlanda si Suedia. este chiar distanta euclidiana dintre ele. 8 Dendrograma este un grafic foarte sugestiv pentru a observa ordinea in care se grupeaza obiectele pe clase. Putem observa ca distanta dintre Belgia si Germania este mai mica de 0.1. in cazul obiectelor.

iar ulterior parcurgem in sens invers ramurile dendrogramei pentru a vedea apartenenta formelor la cele 3 clase. Marea Britanie. Ungaria. dar luand ca variabile cele 3 componente principale obtinute prin ACP: nivelul de trai. proc cluster data=comp outtree=tree method=centroid plots=all standard. Suedia. Luxemburg. Din figura 9. Franta. Componenta clusterelor poate fi citita si din dendrograma. Turcia. Avand in vedere ca variabilele considerate pentru cele 30 de observatii sunt din sfera economica. Danemarca.run. Grecia. Irlanda. Italia. Portugalia clasa tarilor cu dezvoltare economica ridicata: Belgia. componenta celor 3 clase este: clasa tarilor in curs de dezvoltare: Bulgaria. var prin1 prin2 prin3. Slovenia. Austria. astfel: ducem o dreapta paralela cu ordonata care sa intersecteze de 3 ori dendrograma. Norvegia. Olanda. Spania clasa tarilor cu dezvoltare economica foarte ridicata: Islanda In continuare voi aplica metoda centroidului pe aceleasi observatii.Finlanda.Conform figurii 9. Letonia. vom considera cele 3 clase ca fiind: clasa tarilor in curs de dezvoltare. Malta. numarul optim de clase care trebuie retinut este 3. Cehia. Romania. Estonia. Germania. clasa tarilor cu dezvoltare economica ridicata si clasa tarilor cu dezvoltare economica foarte ridicata. Polonia. Elvetia. Dendrograma: Fig. Lituania. Slovacia. nivelul educatiei si problemele sociale. 10 29 .

De asemenea.In figura 11 sunt prezentate testele pentru stabilirea numarului de clase. si de aceea este pus in aceeasi grupa cu 27. daca reprezentam grafic tarile in functie de cele 3 componente (figura 12 ) . Cu toate ca obiectul 28 pare mai apropiat de clasa 1. nivelul educatiei si problemele sociale. 11 Conform testelor CCC si Pseudo T-Squared din figura 11 voi alege sa pastrez 3 clase. obiectele 7 si 9 par izolate de celelalte obiecte din clasa 1. 30 . Fig. adica au valori apropiate pentru componenta 1. si putem observa ca exista o clasa care contine foarte multe tari. Pe de alta parte. Impartirea formelor pe clase este vizibila in figura 10. in timp ce celelalte doua clase au doar 3 si respectiv 2 obiecte. vom vedea ca impartirea pe clase reflecta impartirea intuitiva bazata pe distantele dintre obiecte. dar au aproximativ aceeasi culoare cu acestea. Aceasta impartire face ca rezultatele sa fie greu de interpretat. avand in vedere faptul ca cele 3 componente principale contin informatii din domenii diferite: nivelul de trai. dar este oarecum de inteles. el are valori mari ale componentei 1 (nivel de trai) .

Gruparea obiectelor pe clase este evident diferita de cea obtinuta prin metoda centroidului. 31 . iar distanta lui Ward se calculeaza ca fiind diferenta dintre variabilitatea comuna intraclasa de dupa comasare si variabilitatea comuna intraclasa dinainte de comasarea celor doua clustere. doar ca pe axa absciselor nu mai este reprezentata distanta dintre centroizii claselor.run. Dedrograma (figura 13) are aceeasi semnificatie ca si in cazul metodei centroidului. ci distanta Ward.2 1 3 Fig. luand in considerare variabilitatea intraclasa si interclase. var V1 V2 V3 V6 V7. Metoda se bazeaza pe o virtuala comasare a doua clustere. desi au fost luate in considerare aceleasi variabile ale obiectelor. Comanda SAS: proc cluster data=date outtree=tree_ward method=ward plots=all standard. 12 Metoda lui Ward – este metoda ierarhica cea mai apropiata de spiritul criteriului general al clasificarii.

Fig. 14 32 . Fig. 13 In figura 14 sunt prezentate testele pentru stabilirea numarului de clase.

Dendrograma: figura 15 Fig.Danemarca. este urmatoarea: clasa tarilor dezvoltate: Belgia. Austria. iar in spiritul criteriului general al clasificarii. Italia. Portugalia. Spania clasa tarilor in curs de dezvoltare: Bulgaria. Luxemburg. Componenta celor 2 grupe.1 la aproximativ 0. dupa cum rezulta din figura 10. deoarece variabilitatea intraclasa ar creste foarte mult daca as pastra doar 3 clase (de la 0. Elvetia. tari in curs de dezvoltare. Marea Britanie. Lituania. Ungaria. Slovacia. nivelul educatiei si problemele sociale.Finlanda. tari dezvoltate si tari foarte dezvoltate. Malta. Turcia. Irlanda. 33 . Letonia. vom considera cele 4 clase ca fiind: tari slab dezvoltate. Grecia. Olanda. Germania. Franta. Estonia. Cehia. Romania. In continuare. Polonia. variabilitatea intraclasa trebuie sa fie minima. Norvegia. run. voi aplica metoda lui Ward utilizand ca si variabile ale obiectelor componentele principale. Slovenia. Avand in vedere ca cele 3 criterii dupa care se face clasificarea sunt nivelul de trai.2). 15 Voi alege sa lucrez cu 4 clase. var prin1 prin2 prin3. Suedia. Comanda SAS: proc cluster data=comp outtree=tree method=ward plots=all standard.Numarul de clustere pe care voi alege sa le pastrez sunt doua: clasa tarilor dezvoltate si clasa tarilor in curs de dezvoltare. Islanda.

Olanda. in functie de distanta dintre forme si initializatorul clasei  Se calculeza centroizii claselor  Se renunta la arondarea precedenta.075436811 1. mult mai performante decat metodele de tip ierarhic.667273296 1. centroizii jucand acum rolul de initializator de clasa  Procesul se repeta pana cand are loc o stabilizare a centroizilor.56089271 3. Apartenenta formelor la cele 4 clase poate fi citita in output-ul w . Turcia. Polonia.605842894 0.603297894 2. Lituania tari in curs de dezvoltare : Bulgaria. Norvegia.run. Germania.Dupa cum rezulta din figura 15. Franta. Tara BE BG CZ DK DE EE IE GR SP FR IT LV LT LU HU MT NE AT CLUSTER 4 3 3 4 3 1 4 3 4 3 3 1 1 4 3 3 4 3 DISTANCE 1.648670217 1. apartenenta formelor la clase este urmatoarea: tari slab dezvoltate : Estonia. Irlanda.880511252 2.340872772 1. O parte din acest output este vizibila in tabelul 7.130085167 1. Austria tari dezvoltate : Belgia. Finlanda. Grecia. Slovacia. Spania tari foarte dezvoltate : Danemarca. Romania. Elvetia.3977478 1. Pentru a putea aplica un algoritm de partitionare.309801462 34 .284786603 0. 15).805355585 0. Sintaxa SAS este: proc fastclus data=comp out=w maxclusters=4. Ungaria.075345078 2. si se reia procesul de impartire a formelor pe clase. Luxemburg. numarul de clase trebuie sa fie aprioric cunoscut. var prin1 prin2 prin3. voi aplica algoritmul celor k medii in incercarea de a obtine o clasificare mai riguroasa a celor 30 de tari studiate. Regatul Unit. Italia. Malta. Letonia.51201585 0. acestia fiind primul obiect care intra in fiecare din cele k clase  Se arondeaza restul formelor la cele k clase. Islanda Algoritmii de partitionare sunt metode de analiza cluster de tip algoritmic. Suedia. adica diferenta dintre centroizii de la pasul t si cei de la pasul t-1 este mai mica decat un prag fixat Cunoscand numarul de clase obtinut prin metoda lui Ward (fig. Cehia.529575406 1. Algoritmul celor k medii (k – means) este cel mai utilizat algoritm de partitionare si presupune parcurgerea urmatoarelor etape:  Se aleg initializatorii de clasa. Portugalia.248020918 2.823634685 1.

357572214 1.075436811 1. cuprinde Estonia.244171737 Dupa cum putem vedea in tabelele de mai sus.303037552 1. Totusi.56089271 1.248020918 1. este inclusa si Polonia. Lituania (la fel ca si la clasificarea obtinuta prin metoda Ward).529575406 1.681594515 1. clasificarea este asemanatoare cu cea utilizand metoda Ward.166555627 1. ne putem da seama si daca o forma este indubitabil arondata corect grupei din care face parte.880511252 2.70048278 2.648670217 1.166555627 0. deci putem spune ca se afla la limita dintre clasa tarilor slab dezvoltate si cea a tarilor in curs de dezvoltare. am obtinut tabele cu componenta fiecarui cluster. clasa tarilor slab dezvoltate. De exemplu.319012321 3.319012321 3. precum si distanta euclidiana fata de centroidul clasei respective Tabel 7 Utilizand optiunea filtru in Excel. sau daca este introdusa la limita in acea grupa. cu atat forma este mai diferita de celelalte forme din grupa.075345078 1. in functie de distanta fata de centroidul grupei. si in plus.278793059 tara IS NO CLUSTER 2 2 DISTANCE 1.357572214 tara BE DK IE SP LU NE FI SE UK CH TU CLUSTER 4 4 4 4 4 4 4 4 4 4 4 DISTANCE 1.681594515 1.605842894 0.357572214 0. In plus. este inclusa la limita in grupa din care face parte.130085167 1.603297894 2.51201585 2.340872772 2. clasa in care au fost incluse. Tara EE LV LT PL Tara BG CZ DE GR FR IT HU MT AT PT RO SI SK CLUSTER 1 1 1 1 CLUSTER 3 3 3 3 3 3 3 3 3 3 3 3 3 DISTANCE 0.3977478 1. 35 .337504801 1.823634685 2.357572214 1. Letonia.70048278 2.70567423 1.244171737 Tabelul alaturat cuprinde toate cele 30 de tari.805355585 1. clasa 1.284786603 0.303037552 1.667273296 0.337504801 1.807437062 0.309801462 1.278793059 1. Cu cat distanta este mai mare. Polonia se afla la o distanta mult mai mare de centroidul clasei decat celelalte trei tari.70567423 DISTANCE 3. si deci.807437062 0.PL PT RO SI SK FI SE UK IS NO CH TU 1 3 3 3 3 4 4 4 2 2 4 4 2.

si daca le comparam cu celelalte tari din grupa. Norvegia. caracteristici ce reprezinta un deziderat pentru toate celelalte tari. 36 . formata din Islanda si Norvegia. Bulgaria. Portugalia. poate fi considerata clasa tarilor cu dezvoltare excelenta. Pentru a face dreptate tarilor din clasa 4. dar acum aceasta clasa mai cuprinde doar Islanda si Norvegia. Malta. Luxemburg.Cehia. nivel al educatiei ridicat si probleme sociale reduse. Romania. Grecia. Ungaria. Clasa 2. Suedia. Regatul Unit si Elvetia. Clasa 4. cuprinde Belgia. Romania si Ungaria sunt cele mai departate de centroidul clasei. ne putem da seama cu usurinta ca sunt mai putin dezvoltate.Clasa 3. Franta. Slovenia. si Slovacia. Germania. Multe din aceste tari apartineau clasei tarilor foarte dezvoltate atunci cand am aplicat metoda Ward. Austria. cea a tarilor in curs de dezvoltare cuprinde tarile Bulgaria. Finlanda. Italia. am putea denumi aceasta clasa ca fiind “clasa tarilor dezvoltate si foarte dezvoltate”. Danemarca. clasa tarilor dezvoltate. si mai ales Islanda sunt caracterizate de un nivel de trai foarte ridicat. Spania. Irlanda. Olanda.

si se urmareste predictia apartenentei formelor dinafara esantionului la una dintre clase.8 11.4 1.96 0.2 8.87 0.54 7144.9 9.3 -0. Analiza discriminanta Analiza discriminanta face parte din metodele de recunoastere supervizata a formelor.96 22361.8 8.96 0.8 4 -0.9 2.9 0.5 14.14 4690.5 0.2 4 1.1 0.62 25531. Tabelul 8 cuprinde informatii despre cele 30 de tari studiate.8 7.7 10 6.6 0.94 0.3 4.97 0.32 26813.7 3.7 13.3 -0.9 14.48 6353.88 5706.2 3.97 0.2 10.9 19509.2 6.57 3217.3 23348.8 5.2 7.88 0.9 5.33 17462.6 1.93 0.14 20650.8 2.95 0.93 18232.95 0.13 Rata inflatiei 0 1.88 0.42 2229.96 0.55 3.84 0.IV.9 6 7.5 7. precum si clasificarea obtinuta utilizand algoritmul celor k medii .84 0.96 0. In cadrul acestor metode se cunoaste numarul de clase si apartenenta formelor dintr-un esantion la clase.61 9333.8 6.95 0.96 0.54 28587.8 2. In functie de valoarea clasificatorului pentru fiecare obiect se stabileste daca el apartine unei forme sau alteia.39 11871.19 22418.3 7.93 10598.9 8.1 7. tara BE DK DE IE FR IT LU NE AT FI SE UK IS NO CH TU BG CZ EE GR SP LV LT HU MT PL PT RO SI SK PIB 31600 41700 29500 43500 29600 26000 60400 34900 33000 34000 36900 33700 48000 60200 41600 34071 4000 12800 12000 19900 23500 9200 8500 9900 13300 8200 16000 5800 17100 10200 Rata somajului 7.7 4. functie de variabilele dupa care se face clasificarea.8 0 1 0.14 26707.8 9.87 0.61 9207.9 0.2 1.7 0.2 -1.1 24024.77 12596.84 5773.97 0.1 0.6 0.87 24449.94 0.96 0.9 0.96 0.78 4522.1 24646.52 8279.91 0. In acest scop se construieste un clasificator.8 15694.83 0.8 13.6 6.88 Clasa 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 Tabel 8 37 .6 6.9 IDU 0.1 3.95 0.96 0.9 12 Venitul salarial 25390.96 0.9 5.

509796 -0.001374 Variabilitatea intraclasa ∑ Column 1 Column 2 Column 3 Column 4 Column 5 Column 1 64703624 -3036.65 7.79792 14306434 -5009.01625 Column 5 107.951 -1.61183 -7711.5 9.54 -0.8 3579.76733 Column 4 -1322.0244 -0.001321 Column 3 17642898 3441.29719 12439919 -2923.5 1.39E+08 -22634.52E-05 Column 1 Column 2 Column 3 Column 4 Column 5 Column 5 173.00029 ∑ Column 3 14867976 46.02874 Column 5 570.0359 0. β5 sunt elementele vectorului propriu corespunzator valorii ∑ proprii maxime a matricei ∑ Matricea de covarianta totala (Σ) (varianta totala) Column 1 Column 2 Column 3 Column 4 Column 5 Column 1 2.29719 -5608.23 107.79792 -1.077661 46.29 71790853 -7711.84 12439919 3579.571 10. o functie liniara de forma: Coeficientii β0.05226 321.8517 -0.22426 -0.14017 -5009.65 14867976 -1322.61183 -0.54 570.73 55.00029 55.5548 -0. β3.4014 Column 2 -22634.130889 -0.85171 Column 4 -6923.797 4.22426 -0. β1.23 -1.000676 38 .9434895 0.510928 -2923.001905 Matricea de covarianta a clasei 1 (Σw1) (varianta intraclasa 1) Column 1 Column 2 Column 3 Column 4 Column 5 Column 1 Column 2 Column 3 Column 4 97368759 -8741.96071 -4325.14017 -0.01625 0.43625 49.571 17642898 -6923.88 -0.000938 6.001321 113.0017 4.092 113.88 173.0816 0.96071 0.55482 Column 4 -6032.09 3.94 -0.943489 0.51 4.95 15996451 -5608.000938 Matricea de covarianta a clasei 2 (Σw2) (varianta intraclasa 2) Column 1 27372041 3483.219 -1.219 -8741.05226 Column 3 115086982 -11194.0017 4.275858 -11194.Voi utiliza clasificatorul Fisher.02874 0.15E+08 -6032.0816 Column 2 3483.73 4.003905 -0.0244 ∑ Column 2 -3036.514 321.9396 12374987 -4325.3 -0. β4.01107 3441. β2.76733 -0.84 4.0359 Column 5 49.4014 -0.

Japonia si Cipru.377 -0.001229 Vectorii proprii ai matricei ∑ ∑ : β1 = 1.7875 -0.01249 0.52 .8 2.99 Planul care separa cele 2 clase este definit de ecuatia .313 463.7875 Column 4 -4710. altfel.198197 -11241.01249 0.198197 -11241.05197 265.Variabilitatea interclasa ∑ ∑ ∑ Column 1 Column 2 Column 3 Column 4 Column 5 Column 1 174722985 -19597.8 2.78 0.126984 -0.23 . β4 = 4. β5=9.313 463.528333 -0. daca scorul discriminant ia valori negative tara x apartine clasei 2. In tabelul 9 sunt date cele 5 variabile considerate pentru tarile SUA. In ultima coloana a tabelului este calculat scorul discriminant.05197 Column 3 1E+08 -11241.1 57484419 -2701.05197 ∑ Column 3 1E+08 -11241.528333 -0.1 0.126984 -0. β3 = 3.14 β0 = .31 0.528333 -2701.04 .7875 -0.528333 -2701.01249 Column 5 463.05197 265.377 -0.16 .2. 39 .87184.001229 ∑ Column 1 Column 2 Column 3 Column 4 Column 5 Column 1 174722985 -19597.7875 Column 4 -4710.1 0.78 265.37701 Column 2 -19597.01249 Column 5 463. β2= .31 0.1 57484419 -2701.( β1*̅̅̅ + β2* ̅̅̅ + β3 *̅̅̅ +β4 *̅̅̅ +β5*̅̅̅ ) ⇿ β0= .84 100219006 -4710.37701 Column 2 -19597. Daca D(x) > 0 tara x apartine clasei 1.78 265.78 0.84 100219006 -4710.

39606 Tabel 9 Cum D(x) > 0 pentru toate cele 3 tari.9 3.839 scoruri discriminant D(x) 84558. 40 .908 0. toate vor fi arondate clasei 1.8 0 2.95406 54894.63 10231.6 3.Tara PIB x1 33900 25000 20300 SUA Japonia Cipru Rata somajului x2 4.9 Venitul salarial x3 15546. clasa tarilor dezvoltate.88272 54892.2 IDU x5 0.93 Rata inflatiei x4 2.899 0.56 11871.

venitul salarial net anual (V3). an1.. dupa cum urmeaza:    Factori observabili. si voi incerca sa explic aceste variabile prin intermediul unor factori comuni.) Factori latenti (ascunsi / comuni) – variabile care nu pot fi masurate. iar matricea F care ii contine. etc. f2. sau variabile indicator sunt acele variabile care se pot masura direct. x2. Voi considera cele 30 de tari din Anexa 1. 41 . variabilele observate. dar care influenteaza toate variabilele indicator Factori unici – au influenta doar asupra unei variabile Fie x1. Valorile proprii ale matricei de covarianta (Fig.a12. f1. cumulat. prin intermediul influentei comune a unor factori neobservabili. Primii 2 factori explica. rata saraciei. . scopul AF este explicarea caracteristicilor existente prin niste factori care le influenteaza. rata somajului (V2). rata somajului. x3. are pe coloane vectorii proprii ai matricei de covarianta ai variabilelor observabile.V. avand cinci variabile observabile: PIB-ul (V1). factorii unici corespunzatori fiecarei variabile. Analiza factoriala Analiza factoriala isi propune sa explice legaturile dintre anumite variabile observabile. 84. In analiza factoriala sunt luati in considerare trei tipuri de factori.. deci ma voi multumi sa explic varianta prin doar doi factori comuni. Coeficientii a11. Variabilele observate se pot scrie ca o combinatie liniara de factorii comuni si factorul unic corespunzator. . u3.97% din varianta variabilelor masurabile. Analiza factoriala este de fapt corespondentul dual al analizei componentelor principale. run.. an2…anp poarta numele de intensitati (loadings). u2. rata inflatiei (V6) si IDU (V7).a1p. factori comuni si u1.. Comanda SAS pentru analiza factoriala: proc factor data=date method =principal rotate =varimax priors=one plots=all n=2 out=sc reorder. Daca scopul ACP este reducerea dimensionaliatii prin reprezentarea obiectelor intr-un nou spatiu. pentru obiectele observate (PIB. deci crearea unor noi caracteristici ale obiectelor. numiti factori latenti. 16) arata proportia din varianta totala a variabilelor explicata prin intermediul variantei fiecarui factor comun.

42 . Vom considera acest factor ca fiind cererea agregata din economie. Fig. 17 Analizand matricea factor putem da o interpretare factorilor. Acest factor il vom considera ca fiind dezvoltarea economica. Astfel. Fig. 16 Matricea factor (Fig. Aceasta varianta explicata prin factorii comuni poarta numele de comunalitate si se poate calcula ca fiind suma patratelor corelatiilor dintre fiecare factor si variabila indicator considerata.Fig. Factorul 1 influenteaza pozitiv PIB-ul. V3 si V7. venitul salarial net si IDU si influenteaza negativ rata somajului si rata inflatiei. Al 2-lea factor influenteaza puternic pozitiv rata inflatiei si negativ rata somajului. 18 In figura 18 putem observa ce proportie din varianta variabilelor indicator este explicata prin factorii comuni. in timp ce al 2-lea factor este corelat mai puternic cu variabilele V2 (negativ corelat) si V6. 17) prezinta corelatiile dintre factorii comuni si variabilele indicator. putem observa ca primul factor explica intr-o proportie mai mare varianta variabilelor V1.

Fig. 43 .55942 cerere agregata -0.86260072 0.061075932 0. Este complementara fata de 1 cu comunalitatea.9624 Venit net 0.92789 IDU -0. Se modifica doar proportia din varianta explicata de fiecare factor.82629 -0. Rotatia factorilor este posibila. nu se modifica variatia totala explicata de cei doi factori. 19 Comparand rezultatele din figura 17 cu cele din figura 19 observam ca nu exista modificari majore prin rotirea factorilor. 20 Comparand figura 20 cu figura 18. ci se redistribuie.40214 rata inflatiei rata somajului -0.722614739 specificitate 0.277385261 Tabel 9 Specificitatea reprezinta proportia din variatia variabilei observate care nu este explicata de factorii comuni.13739928 0.844471744 0.12924 -0.04026 0.155528256 0. ci se datoreaza factorilor unici si variantei reziduale.11274 0.dezvoltare economica 0. deoarece solutia problemei nu este unica.879892624 0. Interpretarea factorilor ramane aceeasi. Fig.92908 PIB 0. Prin rotatie. deoarece nu se schimba sensul in care ei influenteaza variabilele indicator.120107376 0.64005 comunalitate 0. observam ca comunalitatea fiecarei variabile nu s-a modificat.938924068 0.

955 0.2 10.8 10.30 4690.8 13.8 0.9 12.5 13.0 15.4 11.0 13.7 22.7 38.0 10.10 2229.2 0.6 absolventi studii superioare 26.2 Venitul salarial net anual 25390.2 -1.96 6353.9 18.4 23.8 12.9 15.833 0.6 13.9 9.3 14.3 21.9 22.8 26.2 43.5 18.4 -0.5 0.1 39.0 16.963 0.3 0.951 0.80 15694.2 32.4 -0.2 9.866 0.9 3.929 0.14 20650.2 30.960 0.87 24449.1 0.1 -0.9 10.9 12.7 1.7 14.955 0.940 rata migratiei internationale neta 0.7 5.6 1.7 11.Anexa 1 PIB €/loc Belgium Bulgaria Czech Republic Denmark Germany Estonia Ireland Greece Spain France Italy Latvia Lithuania Luxembourg Hungary Malta Netherlands Austria Poland Portugal Romania Slovenia Slovakia Finland Sweden United Kingdom Iceland Norway Switzerland Turkey 31600 4000 12800 41700 29500 12000 43500 19900 23500 29600 26000 9200 8500 78100 9900 13300 34900 33000 8200 16000 5800 17100 10200 34000 36900 33700 48000 60200 41600 34071 Rata somajului armonizata 7.7 rata inflatiei 0.3 7.1 0.0 0.4 25.3 23.902 0.6 17.3 0.3 17.3 25.7 13.7 .2 17.7 17.2 0.84 26813.4 16.8 8.54 28587.969 0.964 0.4 4.6 0.57 3217.880 0.1 12.3 16.6 19.77 12596.0 46.9 0.959 0.5 41.2 11.4 15.4 13.5 12.6 15.88 5706.0 9.3 17.1 11.2 0.8 3.5 18.1 13.3 11.2 11.0 12.6 21.1 6.880 0.9 2.0 8.6 12.9 27.9 6.7 34.10 5773.1 0.960 0.9 0.879 0.9 19.9 41.0 37.4 15.1 0.6 14.3 -0.8 11.870 0.942 0.62 25531.0 -0.6 0.947 0.8 12.5 11.6 15.39 22361.5 26.9 11.0 4.5 15.9 1.7 14.2 9.7 15.2 21.93 10598.3 46.3 0.8 30.965 0.78 4522.32 8279.5 38.3 8.7 3.33 17462.2 14.909 0.6 31.4 27.840 0.6 13.5 30.1 13.8 1.0 18.2 33.6 1.9 13.1 10.0 7.13 23348.953 0.0 17.7 16.1 0.4 36.0 19.1 17.7 21.8 18.3 45.8 0.14 24024.2 0.2 33.5 19.2 0.903 0.1 0.2 8.7 19.7 6.1 13.1 0.0 1.1 7.6 0.9 5.1 13.4 0.42 sarcina fiscala 49.3 4.61 9333.0 0.6 11.9 12.6 9.3 27.6 3.5 12.947 0.4 cheltuielile publice cu sanatatea 13.8 10.2 16.7 26.5 18.955 0.5 10.8 6.61 9207.3 0.7 10.6 6.3 11.3 1.9 11.19 22418.1 17.4 33.1 0.7 15.52 19509.90 11871.2 14.2 0.8 17.5 9.9 12.3 16.7 20.4 34.3 rata saraciei 14.48 24646.2 0.0 13.1 15.5 15.2 13.9 5.5 12.54 7144.0 27.961 0.7 4.9 9.8 indicele dezvoltarii umane 0.7 33.6 cheltuieli publice cu educatia 12.93 18232.1 43.8 8.1 20.3 29.3 -0.837 0.8 13.0 2.1 0.5 7.7 43.6 -0.7 10.2 10.2 10.0 6.9 38.7 34.971 0.14 26707.7 10.2 0.4 -0.3 2.5 9.4 14.3 22.