You are on page 1of 10

Facultatea de Cibernetică, Statistică și Informatică

Economică

PROIECT ECONOMETRIE

Matei Ana-Maria
Grupa 1070, Seria B
CSIE, IE, 2015
Proiect Analiza Datelor

In urmatorul proiect ne propunem analiza progresului tehnologic in 30 de tari


considerate a avea nivel de dezvoltare umana mediu. Datele corespund valorilor
inregistrate in anul 2005 si sunt preluate din Human Development Report
2005/2006, United Nations.
Variabilele reprezinta:
1) Alfabetizarea – gradul de alfabetizare a adultilor de peste 15 ani in anul 2005
2) Linii_telefonice – numarul de linii telefonice la 1000 de persoane
3) Abonati_tel_mobil – numarul de telefoane mobile la 1000 de persoane
4) Utilizatori_internet – numarul utilizatorilor de internet la 1000 de persoane
5) Cercetatori – numarul de cercetatori la milionul de locuitori
6) Consum_energie – consumul de energie pe cap de locuitor(%) din totalul de
energie consumata in 2005
7) PIB/loc($) – pib per capita in dolari
8) Nivel_saracie – indecele de saracie umana, in procente(cu cat valoarea
acestui indice este mai mare cu atat tara este mai saraca)
9) Populatie_urbana(%) - cat la suta din totalul populatiei locuiesc in orase
10) Numar_angajati – numarul de angajatii in 2005(in mii)
Scopul proiectului este determinarea celui mai avantajos stat in care se poate
muta cineva tinand cont de datele prezentate.
Datele sunt:
Pentru a decide care dintre cele 30 tari este cea mai avantajoasa din punct
de vedere al dezvoltarii tehnologice vom utiliza analiza pe component principale.
Pentru analiza in componente principale se vor folosi variabilele
standardizate, evitand in acest fel discrepantele dintre valori ce ar putea fi datorate
unitatilor de masura diferite.
Se urmareste reducerea dimensionalitatii, adica gasirea unor indicatori
relevanti pentru analiza, indicatori redusi din cei initiali, pe baza carora datele pot fi
analizate mai usor. Pentru aceasta folosim tehnica analizei componentelor
principale pe baza matricei de corelatie.
Noile componente vor exprima attribute noi ale tarilor si sunt construite astfel
incat sa nu fie corelate intre ele. Noile variabile sunt de fapt o combinatie liniara a
variabilelor originale.
Calculam mai intai indicatorii de centrare si de imprastiere cum ar fi media,
valorile minima si maxima si abaterea standard corespunzatori fiecarei variabile.

Abaterile standard sunt:


Se poate observa ca abaterile standard ale celor 10 variabile au valori destul
de diferite. Se impune o standardizare a datelor.
Operatia de standardizare a valorilor unei variabile consta in substituirea
valorilor fiecărei observatii cu o noua valoare reprezentand raportul dintre valoarea
centrata a respectivei operatii si abaterea standard a respectivei variabile. Daca o
variabila a fost standardizata, media ei este intotdeauna 0, iar varianta este 1.
In noua forma datele sunt de forma urmatoare:
Media variabilelor in forma normalizata va fi aproximativ egala cu 0, iar
varianta va fi 1. Sa testam pe una dintre variabile, fie ea alfabetizarea:

Pentru analiza in componente principale vom folosi matricea de corelatie


aplicata pe setul de date standardizat.
Prezentam totusi o comparatie a matricei de corelatie in ambele
situatii(datele in forma initiala si datele dupa standardizare):

Matricea de corelatie inainte de normalizare

Matricea de corelatie dupa standardizare

Se observa ca matricea de corelatie nestandardizata are mai multe valori


valori negative decat in cazul in care datele sunt standardizate. Deducem ca in
cazul valorilor standardizate exista o corelatie mai buna intre variabile ceea ce ne
ofera posibilitatea eliminarii unora dintre ele pentru a continua analiza pe
componente principale.
Matricea de corelatie ofera informatii cu privire la ‘taria’ legaturii dintre
variabile si, deasemenea, in functie de valorile coeficientilor ne putem da seama de
cate componente principale este necesar in cadrul analizei.
Din analiza matricei de corelatie se observa faptul ca cea mai stransa
legatura, 0.648 este intre variabila produsului intern brut/loc si cea a numarului de
linii de telefonie fixa, urmata de corelatia de 0.639 intre numarul de cercetatori si
numarul de linii de telefonie fixa. Din analiza matricei de corelatie deducem ca,
pentru a caracteriza datele initiale avem nevoie de trei variabile artificiale.
Ne uitam si la abaterile standard obtinute in urma aplicarii functiei princomp()
din R.

Conform principiului lui Kaiser se recomanda alegerea componentelor


principale care au o abatere standard mai mare sau egala cu 1. In acest caz vom
face o analiza pe Copm.1, Comp.2 si Comp.3.
Sa vedem ce pondere din totalul de date influenteaza aceste componente.
Vom utiliza o sumarizare a datelor obtinute in urma analizei in componente
principale.

Prima componenta este reprezentativa pentru 42.64% din date, a doua


pentru 20.18%, a treia componenta corespunde la 11.24% dintre date, iar de la
componenta 4 pana la ultima valorile descresc de la 9.86% la 1.26%.
Cummulative Proportion arata cate procente totalizeaza un set de
componente din reprezentativitatea setului de date.
Astfel, primele 2 componente insumeaza 62.83% din date, primele 3
componente au 74.08%, primele 4 componente au 83.94%. Sub ultima componenta
principala, in dreptul valori pentru Cummulative Proportion apare valoarea de 100%
ceea ce inseamna ca toate datele sunt representative pentru varianta setului de
date.

Pentru a stabili numarul de componente principale necesare se mai poate


folosi si metoda grafica. In Scree Plot, graficul descresterii, se observa trei
diferente semnificative de nivel intre segmentele ce indica reprezentarea grafica a
valorilor proprii, ceea ce ne indica necesitatea unui numar de 3 componente
principale.
Pe abscisa sunt reprezentate etichetele valorilor proprii, in timp ce pe
ordonata se afla valorile efective ale acestora. Folosind criteriul pantei si
reprezentarea grafica a valorilor proprii se poate determina numarul de componente
principale necesare reprezentarii spatiului initial. In urma identificarii numarului de
diferente semnificative dintre valorile proprii reprezentare, deasupra ultimei
diferente semnificative in reprezentarea grafica se duce o paralela la abscisa, iar
numarul de valori proprii ramase deasupra paralelei da numarul de componente
principale.

Bar Chart Screen Plot


Calculul valorilor proprii si al vectorilor proprii
Valorile proprii sunt:
Se poate observa ca si prin acest test deducem ca va trebui sa alegem tot
primele trei componente deoarece acestea sunt singurele care au valori proprii
peste 1.
Acestea pot fi calculate si ca abaterile standard la
patrat(pca$sdev*pca$sdev).
Vectorii proprii:

Calculam componentele principale. Acestea sunt stocate in variabila


scores(pca$scores).
Pentru a caracteriza componentele astfel obtinute se determina coeficientul
de corelatie intre variabilele artificiale obtinute si variabilele originale luate in calcul.
corfact = cor(mydata2,compp)

Se observa astfel ca prima componenta principala se poate analiza in


termenii nivelului de saracie. Prima componenta principala este puternic negativ
influientata de numarul liniilor de telefonie fixa la 1000 de locuitori, deoarece, cu
cat tara are un indice de saracie mai mare cu atat este mai putin inclinata spre
folosirea de tehnologie. Astfel, aceasta prima componenta poate fi considerata un
Indicator al accesului populaţiei la întreaga gamă de servicii oferite de dezvoltarea
tehnologiilor informaţionale. In acelasi timp, aceasta prima componenta poate fi
folosita pentru a caracteriza tarile in functie de gradul de educatie a utilizarii
tehnologiei.
A doua componenta este influentata cel mai mult de consumul de energie si
de numarul de cercetatori la mia de locuitori ceea c ear putea determina
dezvoltarea mai rapida a noilor tehnologii.
Cea de-a treia componenta principala este influentaya de numarul
utilizatorilor de internet la mia de locuitori si numarul abonatilor de telefonie mobile
ceea ce sugereaza din nou o inclinatie spre utilizarea tehnologiilor.

Utilizand biplot-ul de mai sus observam ca nivelul saraciei are cea mai mare
influenta asupra primei componente. Printr-o ordonare descrescatoare a valorilor
inregistrate de cele 30 de tari considerate in studio, deducem ca tari precum
Guatemala, Nigeria, Honduras, Bangladesh, Nepal si Pakistan au inregistrat cel mai
mare indice al saraciei in anul 2005.
In ceea ce priveste a doua componenta, ea este influentata cel mai mult de
consumul de energie si de numarul de cercetatori la mia de locuitori. Astfel, tarile cu
cel mai mare consum de energie sunt: Vietnam, China, Kazakhstan, Thailand si Sri
Lanka. Cel mai mari valori inregistrate pentru numarul de cercetatori la mia de
locuitori s-au inregistrat in urmatoarele state: Iran, Tunisia, China, Kazakhstan si
Egypt.
Asadar putem presupune ca o persoana care ar fi vrut sa se mute intr-una
dintre cele 30 de tari mentionate in studio ar fi facut cea mai buna alegere daca s-ar
fi stabilit in China sau Kazakhstan.

You might also like