2014

Emilia-Andreea
Popa
Grupa 1028
Seria Cibernetică

[INTELIGENȚĂ
COMPUTAȚIONALĂ ÎN
ECONOMIE]

PROIECT

Introducere
Pentru realizarea acestui proiect, am construit un set de date cu 360 de observații,
ce corespund celor 9 indicatori economici și demografici pe care i-am inclus în
analiză. Datele au fost culese de pe site-ul: http://ec.europa.eu/eurostat. Am ales 40
de țări din Europa, pentru care am identificat: numărul de locuitori, Produsul Intern
Brut/cap de locuitor (euro per locuitor), Produsul Intern Brut/(calculat la prețurile
curente, în milioane euro), Consumul Final (calculat în milioane euro), exporturile
(calculat în milioane euro), rata inflației, rata șomajului, numărul de divorțuri și
numărul de căsătorii. Perioada de analiză o reprezintă anul 2013, iar valorile
calculate pentru rata inflației și rata șomajului sunt valorile medii.
Indicatorii stabiliți, denumiți în continuare atribute, se prezintă în baza de date
astfel:








Population
GDP/euro per habitant
GDP in current prices
Final Consumption
Exports
Inflation Rate (%)
Unemployment Rate (%)
Divorces
Marriages

În continuare, voi rezolva cerințele proiectului și voi atașa printscreen-urile outputurilor din R, precum și interpretarea rezultatelor obținute.
Cerințe
1. Calculați statisticile descriptive ale setului de date: medie, dispersie,
varianțe, matrice de covarianță și de corelație, histograme.

Am importat datele în R și le-am afișat, așa cum se poate observa și în printscreen,
apoi am identificat și dimensiunile bazei de date: câte 40 de observații pentru 10
atribute/variabile, dintre care unul este cel al denumirii țării. Apelarea funcției str
ne arată că variabilele noastre sunt numerice/cantitative, iar din summary putem
identifica valorile minime, maxime, cuartilele, media și mediana pentru fiecare
atribut.

Putem declara că cea mai mică populație pe care o are o țară este de 37129
locuitori, în timp ce cea mai mare populație atinge 80780000 locuitori. PIB-ul maxim
atins este în punctul 2737600 milioane euro, în timp ce minimul este 3149 milioane
euro. Valoarea medie a consumului final este 81316 milioane euro, valoarea medie
a ratei inflației este de 1,65%, iar valoarea maximă 13%. Rata șomajului atinge cote
maxime, de până de la 27,5%, numărul minim de divorțuri înregistrate într-o țară
este de 87, în timp ce numărul maxim de căsătorii este 603751.

. media și dispersia cea mai mică o înregistrează rata inflației. în timp ce dispersia maximă este asociată numărului de locuitori=22968885.Dintre cele 9 variabile.

se remarcă o legătură directă. aflând astfel că între numărul de locuitori al unei țări și GDP-ul acesteia există o legătură puternică. sugerată de coeficientul 0.Am calculat matricea de covarianță și matricea de corelație. .859. pozitivă și puternică între numărul de locuitori și numărul de divorțuri. directă. De asemenea. respectiv căsătorii.

frecvența cea mai mare se înregistrează pentru intervalul 0500000 milioane euro. Similar. Referitor la exporturi. s-au înregistrat valori cu preponderență în intervalul 0-200000 milioane euro.Din histogramele realizate putem trage următoarele concluzii: frecvența cea mai mare o au țările care au un PIB/cap de locuitor între 0 și 20000 euro. . iar consumul final: 0-500000 milioane euro. când vine vorba de PIB total.

.

cu câteva valori care depășesc 10%. Rata șomajului are o distribuție mai echilibrată. cu două intervale puternice de frecvență: 5-10%.f Rata inflației este extrem de frecventă în intervalul 0-5. . nicio valoare înregistrată în intervalul 20-25%. însă câteva valori sesizate în intervalul 25-30%. respectiv 10-15%.

.

.

.

trasarea dreptelor de regresie și interpretări. . coeficienții dreptelor de regresie estimați. am construit mai multe funcții. Determinați posibile dependențe între variabile. ecuații de regresie.  Funcția 1 este funcția analizată între numărul de locuitori al unei țări și PIB-ul total rezultat. deci legăturile între variabile nu sunt vizibile și nu pot fi afirmate. Pentru a identifica legături între unele variabile.2. O observație foarte importantă este aceea că setul meu de date nu este o serie de timp.

139e+01*GDP  Funcția 2 este funcția analizată între numărul de locuitori al unei țări și consumul final. .415e+06+3.Ecuația de regresie rezultată este: Population=4.

Ecuația de regresie rezultată este: Population=4.501e+06+3.927e+01*FC  Funcția 3 este funcția analizată între rata inflației și rata șomajului .

06*Unemployment Se remarcă existența unei legături inverse. conform coeficientului de determinație=0.Ecuația de regresie rezultată este: Inflation=2.7409-0.0206. rata șomajului scade cu 0.  Funcția 4 este funcția analizată între numărul de divorțuri și rata șomajului . astfel încât atunci când rata inflației se modifică cu un punct procentual.06 puncte procentuale. însă foarte slabă.

 Funcția 5 este funcția analizată între PIB și rata inflației . rata șomajului scade cu 2. după cum indică și valoarea lui Multiple R-Squared.1*Unemployment Legătura este una inversă.Ecuația de regresie rezultată este: Divorces=3110.2%. astfel încât atunci când numărul divorțurilor se modifică cu o unitate. modelul de regresie nu este valid.5-221. Totuși.

. rata inflației scade cu 0.006. analiza efectuală nu este relevantă.2%. Așa am cum am precizat și anterior. astfel încât atunci când PIBul se modifică cu o unitate. întrucât setul de date nu este unul potrivit pentru identificarea unor potențiale legături între variabile și construirea modelelor de regresie liniară. însă modelul liniar nu este valid. întrucât Multiple R-Squared=0.Ecuația de regresie rezultată este: GDP=412472-22116*Inflation Legătura ce pare să existe între cele două variabile este inversă.

865681e+07 ƛ8=2.000409e+08 ƛ7=9. Pentru Analiza Componentelor Principale am asociat matricei de corelație un indicator r și matricei de covarianță un indicator s.281076e+14 ƛ2=1. În urmă rulării instrucțiunii eigen (s) se obține: Valorile proprii sunt:          ƛ1=5. ω5. ω 4 . ω2 .571781e+09 ƛ5=5. = 9 componente principale . valori proprii.069792e+08 ƛ6=3. scree plot. ω 6.313406e+01 ƛ9=2. ω9.898461e+11 ƛ3= 8.3.345611e+09 ƛ4=1. ω7.104875e+00 ω1 . ω 8. ACP: vectori proprii. biplot: grafice și interpretări. matricea scorurilor. criterii de determinare a componentelor principale. ω3 .

d. se rețin numai acele varianțe mai mari sau egale cu varianța medie.108333e-08*Inflation+(-2. ω1 = 9. Criteriul mediei Conform criteriului. p≤9. Din cele 9 componente prinicipale. Vom aplica mai multe criterii: 1. 3.214007e03*Exports+3. trebuie să reținem numai p componente. se rețin numai valorile proprii mai mari sau egali cu 1. conform unui criteriu prestabilit. iar dacă rezultatul este mai mare de 70-75%.924123e-02*FC+8. Criteriul procentului de acoperire: Varianța totală= ƛ1+ ƛ2+ƛ3+ƛ4+ƛ5+ƛ6+ƛ7+ƛ8+ƛ9 ƛ1 θ1= Varianta totala .m.994904e-01*Population+(-6. până scriem cele 9 componente principale.. Scree Plot . 4.a.950611e- 05)*GDP/habitant+2.352773e-02*GDP+1.955490e-03*Marriages ș. alegem o singură componentă principală 2.756254e09)*Unemployment+1. Criterul lui Kaiser Conform acestui criteriu.783799e-05*Divorces+4.

.

Biplot .Fiecare componentă explică câte 11% din varianța totală. ceea ce înseamnă că vom alege 8 componente principale. Acestea sunt mai potrivite pentru a fi folosite în analiză. Mai sus am atașat o parte din matricea scorurilor. în comparație cu datele inițiale. iar varianța cumulativă trebuie să depășească 80%. fiind mai puțin afectate de erori.

39. rata de exactitate a modelului pentru fiecare situație. respectiv -1. Un unghi de 0 0.Într-un biplot. Unghiul dintre linii aproximează corelația dintre variabilele pe care le reprezintă. 28 au caracteristici similare. împărțită la 9 și trunchiată. sigmoid. lungimea liniilor aproximează varianța variabilității. matricea de confuzie. Vom împărți setul de date în set de antrenare și set de testare și se obține un vector de lungime 40. adică numărul de linii ale setului de date și un vector cu componente aleatoare de lungime egală cu lungimea vectorului index. polinomială. coeficientul Cohen. cu atât corelația e mai mică. 4. reflectă o corelație de 1. 37. Distanța dintre două puncte aproximeaxă distanța euclidiană dintre două observații. Vectorii orientați în aceeași direcție corespund variabilelor cu profiluri similare. . În cazul nostru. radială. Cu cât e mai lungă linia. SVM: construirea setului de antrenare și de testare. diverse forme ale funcției kernel: liniară. număr de vectori suport în fiecare situație. cu atât e mai mare varianța. respectiv 1800. Punctele apropiate în biplot corespund unor țări cu caracteristici asemănătoare. Un grup de vectori în aceeași direcție corespunde unui grup de caracteristici comune unei țări. 15 sunt outliers. predicții. iar punctele extreme din figură sunt outliers. în timp ce 38. 29. Cu cât unghiul e mai aproape de 90 0 și 2700.

.

SVM-Radial .

cu parametrii impliciți cost=1 și un parametru gamma=0. de care depinde funcția nucleu-radială. Funcția nucleu implicită este de tip radial. Predicția pentru primele 6 observații: .Au fost obținuți 36 vectori-suport.111111.

.

Prin urmare. . Funcția nucleu implicită este de tip liniar. de care depinde funcția nucleu-radială. motiv pentru care R a generat eroare la rularea comenzilor de predicție.Observație: argumentele nu au aceeași lungime în baza mea de date. rezultatele arată că rata de exactitate a modelului este 0.111111. SVM-linear Au fost obținuți 36 vectori-suport. cu parametrii impliciți cost=1 și un parametru gamma=0. iar coeficientul Cohen=-0.066667.

Funcția nucleu implicită este de tip polinomial. de care depinde funcția nucleu-radială.111111. SVM-sigmoid .SVM-polinomial Au fost obținuți 36 vectori-suport. cu parametrii impliciți cost=1 și un parametru gamma=0.

5. fuzzy clustering. matrice de confuzie. Analiza cluster: kmeans. rata de exactitate a modelului pentru fiecare situație Kmeans . de care depinde funcția nucleu-radială. dendograme.Au fost obținuți 36 vectori-suport. diverse valori pentru numărul de clustere. ierarhică. interpretări. cu parametrii impliciți cost=1 și un parametru gamma=0. grafice. comentarii asupra siluetei clusterelor.111111. kmedois. Funcția nucleu implicită este de tip sigmoid.

mediile și atributele lor. km$cluster afișează clusterul corespunzător fiecăreia dintre cele 40 de observații.Se afișează cele 4 clustere. Sunt afișate țările și apartenența lor la cele 4 clustere: . cu numărul de componente.

. în raport cu cele 9 atribute numerice.În figura de mai jos sunt reprezentante observațiile grupate în cele 4 clustere.

.

.

România. Polonia. Clusterul 1 cuprinde țări precum: Azerbaijan. Belgia. prin urmare am eliminat coloana 1: Număr de clustere create este 2: . K-medoids Vrem să lucrăm cu un set mai scurt de date. Umătorul grad de risc asociat Clusterului 2 se asociază țărilor precum: Cipru.a. care ar avea cel mai mic grad de risc. Croația. Țările din Clusterul 4 au gradul de risc cel mai mare: Bulgaria. Estonia. Austria etc. Grecia.Interpretare: Conform clusterizării k-means. Islanda ș.md.

result$pamobject$clustering.result<-pamk(proiect[. executăm funcțiile: pam.-1].Acest grafic arată împărțirea țărilor în clusterele 1 și 2. Dacă vrem să impunem noi gruparea în 3 clustere. proiect$Country) .3) table(pam.

62. al doilea cluster are o siluetă medie de 0.50 și 13 instanțe. silueta medie a primului cluster este de 0. Algoritmul fuzzy –cmeans Dorim să realizăm o clusterizare c-means cu 3 clustere: .69 și conține 20 de instanțe.Ploturile Silhouette: Interpretare: sileuta medie globală pentru cele trei clustere este 0. iar clusterul 3 are silueta medie de 0.66 și 7 instanțe.

Am afișat gradul de apartenență al fiecărei țări la unul dintre cele 3 clustere. .

după ce am eliminat coloana Country: .Am afișat centroizii celor 3 clustere corespunzătoare celui mai apropiat model hard clustering. Afișăm repartiția observațiilor în cele 3 clustere: Clusterizare ierarhică Calculăm distanța euclidiană.

Afișăm dendograma: .

Am calculat distanța dintre clustere conform metode Ward și acuma afișăm dendograma: Împărțim dendograma în 4 clustere: .

Delimităm cele 4 clustere printr.o linie roși și afișăm din nou dendograma: .

sub înălțimea 1000: 6. Arbori de decizie Se extrag două eșantioane din numărul liniilor setului de date. În imaginea de mai jos este afișată apartenența la cele două eșantioane: . 70% sunt în primul eșantion și 30% în al doilea eșantion.Vizualizare triunghiulară a dendogramei: Vizualizăm partea superioară a dendogramei deasupra înălțimii 1000 și a doua ramură. Extragerea este cu revenire.

.

Aleg un eșantion de 12 observații pentru setul de antrenament. SOM: construirea hărților Eliminăm prima coloana.Mai sus am afișat setul de date de antrenare. cea a denumirii țării (Country). . Construim arborele de decizie: 7.

Construim setul de antrenament. apoi setul de date: Construim harta Kohonen: Predicție cu SOM: .

Interpretare: prin metoda lui SOM. iar coeficientul lui Cohen este de 0. .1%. ceea ce înseamnă că datele nu sunt de încredere.03. rata de acuratețe a modelului este de 7.

.Mapping plot 8. Rețele neuronale Din cauza absenței variabilei calitative. nu am știut să fac acest subiect. Clasificatorul Naiv Bayesian 9.