You are on page 1of 45

Análisis de Cluster

Dayana Gianina Arque Paccori

2022-09-11

Análisis cluster con r, aplicado a las emisiones de gases de efecto invernadero


de los países de la Unión Europea.
Principalmente se desarrollará clasificaciones diferentes, basadas por un lado, en los países
má s y menos emisores de gases, y por otro, en los países que má s o menos han reducido
sus emisiones de gases, incluso los que las han aumentado y vamos hacer el perfilamiento
de los cluster, para indicar que diferencia a un cluster de otro. La data se llama
emisiones.xlsx.
Los pasos que vamos a seguir son:
• Definició n del problema

• Descripció n de la data

• Objetivo

• Nú mero de Clusters ó ptimo

• Aná lisis Cluster con Kmeans

• Aná lisis Cluster con algoritmo PAM

• Aná lisis Cluster Jerá rquico: método aglomerativo

• Dendograma

• Conclusiones

Definición del problema


El aná lisis de conglomerados consiste en dividir la població n en al menos dos grupos que
sean lo má s diferentes posible pero cuyos elementos sean lo má s parecidos. El objetivo es
maximizar la distancia entre grupos y minimizar la distancia dentro de cada grupo.

Descripción de la data
Los datos se descargaron de EUROSTAT. Se analizan las emisiones de gases de efecto
invernadero por país y por añ o desde 1990. La informació n se mide en toneladas por
persona.

Objetivo
El objetivo es situar a los países en relació n con sus emisiones.

Número de grupos
En esta fase del aná lisis, la pregunta má s habitual es cuá ntos grupos hay que crear para
optimizar la clasificació n. En teoría, cuantos má s conglomerados se tengan, menos
dispersió n habrá dentro de los conglomerados. Esto es positivo, pero si hay muchas
divisiones, la interpretació n de los grupos es demasiado complicada y las diferencias se
vuelven demasiado insignificantes.
library(cluster)
library(fpc)

## Warning: package 'fpc' was built under R version 4.2.1

library(mclust)

## Warning: package 'mclust' was built under R version 4.2.1

## Package 'mclust' version 5.4.10


## Type 'citation("mclust")' for citing this R package in publications.

library(flexmix)

## Warning: package 'flexmix' was built under R version 4.2.1

## Loading required package: lattice

library(prabclus)

## Warning: package 'prabclus' was built under R version 4.2.1

## Loading required package: MASS

##
## Attaching package: 'prabclus'

## The following object is masked from 'package:fpc':


##
## con.comp

library(diptest)
library(trimcluster)

## Warning: package 'trimcluster' was built under R version 4.2.1

library(plyr)

## Warning: package 'plyr' was built under R version 4.2.1

library(modeltools)

## Loading required package: stats4


##
## Attaching package: 'modeltools'

## The following object is masked from 'package:plyr':


##
## empty

library(mvtnorm)

##
## Attaching package: 'mvtnorm'

## The following object is masked from 'package:mclust':


##
## dmvnorm

library(robustbase)

## Warning: package 'robustbase' was built under R version 4.2.1

library(kernlab)

##
## Attaching package: 'kernlab'

## The following object is masked from 'package:modeltools':


##
## prior

## The following object is masked from 'package:flexmix':


##
## prior

Metodos Particionales

K-Medias o Kmeans
library(readxl)

## Warning: package 'readxl' was built under R version 4.2.1

emisiones <- read_excel("emisiones.xlsx")


emisiones=data.frame(emisiones)
colnames(emisiones) <- tolower(colnames(emisiones)) # para poner en minuscula
los nombres de columna
nombres=emisiones[,1]
emisiones=emisiones[,-1]
rownames(emisiones) <- nombres # para asignar nombres a las filas.
head(emisiones)
## a1990 a1991 a1992 a1993 a1994 a1995 a1996 a1997 a1998 a1999 a2000
## UE27 11.7 11.4 11.1 10.8 10.8 10.9 11.1 10.9 10.8 10.6 10.6
## UE28 12.0 11.8 11.4 11.2 11.1 11.2 11.4 11.2 11.1 10.9 10.8
## Belgium 15.0 15.2 15.1 14.9 15.3 15.5 15.9 15.1 15.6 15.0 15.1
## Bulgaria 11.8 9.7 9.2 9.2 8.8 9.0 9.0 8.7 8.3 7.4 7.3
## Czechia 19.3 17.6 16.9 16.2 15.4 15.4 15.6 15.2 14.6 13.7 14.7
## Denmark 14.1 16.1 14.9 15.3 16.0 15.4 17.8 15.9 15.1 14.6 13.8
## a2001 a2002 a2003 a2004 a2005 a2006 a2007 a2008 a2009 a2010 a2011
## UE27 10.7 10.6 10.8 10.8 10.7 10.6 10.5 10.3 9.5 9.7 9.5
## UE28 10.9 10.8 11.0 10.9 10.8 10.8 10.7 10.4 9.6 9.8 9.5
## Belgium 14.8 14.7 14.7 14.7 14.3 13.9 13.5 13.5 12.1 12.7 11.6
## Bulgaria 7.9 7.7 8.4 8.3 8.4 8.6 9.2 9.0 7.9 8.3 9.1
## Czechia 14.8 14.5 14.8 14.9 14.7 14.8 14.9 14.3 13.3 13.5 13.4
## Denmark 14.0 13.8 14.7 13.6 12.8 14.2 13.3 12.5 11.9 11.9 10.9
## a2012 a2013 a2014 a2015 a2016 a2017 a2018
## UE27 9.3 9.1 8.8 8.9 8.9 8.9 8.7
## UE28 9.3 9.1 8.7 8.8 8.7 8.8 8.6
## Belgium 11.3 11.2 10.6 11.0 10.8 10.8 10.8
## Bulgaria 8.4 7.7 8.2 8.7 8.4 8.8 8.3
## Czechia 12.9 12.4 12.2 12.3 12.5 12.4 12.2
## Denmark 10.1 10.3 9.6 9.0 9.3 8.9 8.9

CLUSTER
res<-kmeans(scale(emisiones),4) # con scale estadarizamos, se desea formar 4
grupos
res

## K-means clustering with 4 clusters of sizes 11, 1, 16, 7


##
## Cluster means:
## a1990 a1991 a1992 a1993 a1994 a1995
## 1 -0.0427767 0.01498913 0.07023714 0.1054059 0.1450676 0.2157732
## 2 3.9264650 4.13357310 4.38826446 4.4545834 4.1946558 3.5478785
## 3 -0.6000642 -0.62229176 -0.66294954 -0.6696896 -0.7154473 -0.7922419
## 4 0.8778723 0.80831637 0.77804565 0.7287123 0.8081082 0.9649266
## a1996 a1997 a1998 a1999 a2000 a2001
a2002
## 1 0.2512941 0.2458249 0.2514387 0.2388996 0.2226334 0.2206571
0.1859707
## 2 3.3367478 3.2231561 2.9191985 3.1544777 3.2717426 3.4306100
3.7465260
## 3 -0.8109387 -0.8297966 -0.8400364 -0.8121275 -0.8058360 -0.7994205 -
0.7691678
## 4 0.9820053 1.0499308 1.1079370 1.0302382 1.0246666 0.9904129
0.9306403
## a2003 a2004 a2005 a2006 a2007 a2008
a2009
## 1 0.1873914 0.1391938 0.1455474 0.1507542 0.1292292 0.1466497
0.1718941
## 2 3.7725659 4.1525123 4.3007823 4.1171485 3.9144384 3.9502019
4.0275376
## 3 -0.7734767 -0.7313422 -0.7135924 -0.7376161 -0.7542388 -0.7558010 -
0.7553462
## 4 0.9345365 0.8596902 0.7879535 0.8609161 0.9616946 0.9327810
0.8810239
## a2010 a2011 a2012 a2013 a2014 a2015
a2016
## 1 0.1246362 0.1224834 0.1281341 0.1259628 0.1049368 0.1124959
0.1190867
## 2 3.9416199 4.0028018 3.9498069 3.6229458 3.5194833 3.3845005
3.1195365
## 3 -0.7626961 -0.7444776 -0.7501492 -0.7715442 -0.7594599 -0.7681388 -
0.7819834
## 4 0.9843600 0.9373603 0.9490150 1.0480244 1.0682243 1.0954663
1.1546064
## a2017 a2018
## 1 0.08649293 0.07162595
## 2 3.12169800 3.23963847
## 3 -0.75100497 -0.74549916
## 4 1.13470848 1.12863752
##
## Clustering vector:
## UE27 UE28 Belgium Bulgaria Czechia

## 1 1 4 3 4

## Denmark Germany Estonia Ireland Greece

## 1 1 4 4 1

## Spain France Croatia Italy Cyprus

## 3 3 3 3 1

## Latvia Lithuania Luxembourg Hungary Malta

## 3 3 2 3 3

## Netherlands Austria Poland Portugal Romania

## 4 1 1 3 3

## Slovenia Slovakia Finland Sweden United Kingdom

## 1 3 4 3 1

## Iceland Liechtenstein Norway Switzerland Turkey


## 4 3 1 3 3

##
## Within cluster sum of squares by cluster:
## [1] 33.20526 0.00000 49.33515 36.37672
## (between_SS / total_SS = 87.9 %)
##
## Available components:
##
## [1] "cluster" "centers" "totss" "withinss"
"tot.withinss"
## [6] "betweenss" "size" "iter" "ifault"

Los cluster que han sido escogidos por Agrupació n de K-means son 3 clusters de tamañ os
13, 1, 10, 11
El país UE27 pertenece al grupo 1, … , el país Turquía pertenece al grupo 4.
El indice de homogeneidad es 88.5%
La suma de cuadrados en el cluster 1 es 33.87231
La suma de cuadrados en el cluster 2 es 0.00000 La suma de cuadrados en el cluster 3 es
56.47946 La suma de cuadrados en el cluster 3 es 22.59696

Determinar numero de conglomerados


kmeansruns(scale(emisiones),criterion="ch") # criterio: calinski harabats

## K-means clustering with 10 clusters of sizes 3, 6, 1, 3, 1, 8, 6, 5, 1, 1


##
## Cluster means:
## a1990 a1991 a1992 a1993 a1994 a1995
## 1 0.1259201 0.1456109 0.23343182 0.286985353 0.33325221 0.40952501
## 2 -0.1000904 -0.0625842 -0.01078354 -0.004298378 0.00815122 0.07773391
## 3 3.9264650 4.1335731 4.38826446 4.454583355 4.19465582 3.54787848
## 4 -0.9803418 -1.0331838 -1.11768170 -1.159830543 -1.25907917 -1.44850514
## 5 0.5541505 0.4212495 0.46813229 0.555862643 0.51238949 0.76083324
## 6 -0.6123313 -0.5991997 -0.66889634 -0.654085164 -0.69429914 -0.78492294
## 7 -0.3855773 -0.4437865 -0.40406540 -0.410815234 -0.42310520 -0.40238732
## 8 0.5719935 0.6288581 0.71551927 0.759441163 0.85872157 0.99503872
## 9 2.3741298 2.0750808 1.19126347 0.575068164 0.77114334 0.71399214
## 10 0.6612081 0.7203466 0.86775741 0.959178579 1.04980134 1.34634694
## a1996 a1997 a1998 a1999 a2000 a2001
## 1 0.40841414 0.43741350 0.49079344 0.52992550 0.52109116 0.50806156
## 2 0.06878781 0.08616769 0.09031963 0.07021095 0.07340448 0.06211411
## 3 3.33674781 3.22315610 2.91919849 3.15447767 3.27174261 3.43061001
## 4 -1.43311528 -1.46819594 -1.53713779 -1.48446008 -1.40678479 -1.38721510
## 5 0.71030421 0.94611432 1.18097172 1.37412859 1.33580024 1.08938591
## 6 -0.79254229 -0.82222664 -0.82885299 -0.80429150 -0.82701038 -0.83077620
## 7 -0.44819893 -0.43060775 -0.41666318 -0.40622049 -0.39041505 -0.36392497
## 8 1.10879910 1.03816495 1.03271120 0.90271221 0.86633421 0.86004151
## 9 0.77822947 0.84921893 0.69529071 0.47141638 0.39202833 0.42046474
## 10 1.32163160 1.52748669 1.76890136 1.80040935 1.84398511 1.85386725
## a2002 a2003 a2004 a2005 a2006
a2007
## 1 0.45355953 0.42364788 0.37527134 0.35996815 0.35897977
0.381437140
## 2 0.03417229 0.04481099 0.02473193 0.05598342 0.01800194 -
0.001751721
## 3 3.74652599 3.77256593 4.15251227 4.30078227 4.11714851
3.914438432
## 4 -1.32495301 -1.29627158 -1.22719451 -1.18559278 -1.16800792 -
1.135990747
## 5 1.06710753 0.95401951 0.95473444 0.87271348 1.29296253
1.454365949
## 6 -0.79392334 -0.81041327 -0.76755866 -0.76715596 -0.79460013 -
0.830397631
## 7 -0.36191565 -0.37948632 -0.35442293 -0.31758818 -0.35633243 -
0.369613026
## 8 0.82479490 0.85855262 0.73153384 0.59583100 0.71923026
0.672660674
## 9 0.34482951 0.61306632 0.63281049 0.65296548 0.55911893
1.247443964
## 10 1.64958980 1.47681441 1.27665838 1.37813388 1.24848716
1.155478638
## a2008 a2009 a2010 a2011 a2012
a2013
## 1 0.417971181 0.47612363 0.39801676 0.4092179739 0.42612024
0.41737801
## 2 0.005216135 0.01939131 -0.00429598 -0.0001231101 0.02549437
0.01439235
## 3 3.950201860 4.02753761 3.94161991 4.0028018059 3.94980688
3.62294580
## 4 -1.145735434 -1.06908293 -1.04868361 -1.0213213933 -1.03070110 -
1.01138935
## 5 1.735612288 1.72253335 1.55212604 1.5467553020 1.70994406
1.78203401
## 6 -0.815332958 -0.82257553 -0.83127217 -0.8414267590 -0.82014489 -
0.83508312
## 7 -0.363882127 -0.40319281 -0.43099131 -0.3706845124 -0.41155203 -
0.46644282
## 8 0.611648548 0.65198692 0.69873538 0.5901898215 0.53538184
0.57307702
## 9 0.973602973 0.62125353 1.35706532 1.5467553020 1.49142085
1.97436808
## 10 1.140292511 1.03103207 0.86941351 0.7453085481 0.86316665
0.93026886
## a2014 a2015 a2016 a2017 a2018
## 1 0.48751908 0.543287046 0.5626082 0.49737222 0.44713327
## 2 -0.01462011 -0.008892238 -0.0398864 -0.02749294 -0.04737286
## 3 3.51948331 3.384500451 3.1195365 3.12169800 3.23963847
## 4 -0.96629342 -0.972696078 -0.9166875 -0.87310902 -0.84246114
## 5 1.97002525 2.239983390 2.2672271 2.36355944 2.42515779
## 6 -0.84195419 -0.896143950 -0.9326071 -0.90226820 -0.89094214
## 7 -0.47371879 -0.415496983 -0.4121595 -0.40656222 -0.41098030
## 8 0.52386439 0.547302895 0.5743642 0.46821304 0.48785731
## 9 1.97002525 1.426773900 1.7088175 1.95533099 1.78520868
## 10 1.02313421 1.215941810 1.2679677 1.16803325 1.17434817
##
## Clustering vector:
## UE27 UE28 Belgium Bulgaria Czechia

## 2 2 8 7 8

## Denmark Germany Estonia Ireland Greece

## 8 1 9 10 2

## Spain France Croatia Italy Cyprus

## 7 7 4 7 1

## Latvia Lithuania Luxembourg Hungary Malta

## 4 6 3 6 6

## Netherlands Austria Poland Portugal Romania

## 8 2 2 6 6

## Slovenia Slovakia Finland Sweden United Kingdom

## 7 7 8 6 2

## Iceland Liechtenstein Norway Switzerland Turkey

## 5 6 1 6 4

##
## Within cluster sum of squares by cluster:
## [1] 2.611517 7.029234 0.000000 2.959890 0.000000 7.713589 5.021590
6.503359
## [9] 0.000000 0.000000
## (between_SS / total_SS = 96.8 %)
##
## Available components:
##
## [1] "cluster" "centers" "totss" "withinss"
"tot.withinss"
## [6] "betweenss" "size" "iter" "ifault" "crit"

## [11] "bestk"

Segun el criterio de calinski harabats nos dice que seleccionemos con 10 clusters de
tamañ os 3, 3, 1, 1, 6, 5, 6, 1, 1, 8
El país UE27 pertenece al grupo 5, … , el país Turquía pertenece al grupo 2.
El indice de homogeneidad es 96.8%
La suma de cuadrados en el cluster 1 es 2.611517 . . . La suma de cuadrados en el cluster 10
es 7.713589
kmeansruns(scale(emisiones),criterion="asw") # silueta

## K-means clustering with 2 clusters of sizes 23, 12


##
## Cluster means:
## a1990 a1991 a1992 a1993 a1994 a1995
a1996
## 1 -0.4675514 -0.4752771 -0.4866656 -0.4870806 -0.5139719 -0.5466443 -
0.5615718
## 2 0.8961401 0.9109478 0.9327758 0.9335712 0.9851129 1.0477350
1.0763459
## a1997 a1998 a1999 a2000 a2001 a2002
a2003
## 1 -0.5673496 -0.573926 -0.5610335 -0.5538479 -0.54864 -0.5344655 -
0.5382684
## 2 1.0874201 1.100025 1.0753141 1.0615417 1.05156 1.0243922
1.0316811
## a2004 a2005 a2006 a2007 a2008 a2009
a2010
## 1 -0.5130521 -0.4897241 -0.5169916 -0.5338844 -0.5266029 -0.525681 -
0.5394762
## 2 0.9833499 0.9386379 0.9909006 1.0232785 1.0093222 1.007555
1.0339960
## a2011 a2012 a2013 a2014 a2015 a2016
a2017
## 1 -0.5226184 -0.5204178 -0.5403103 -0.5462847 -0.5492859 -0.561878 -
0.540948
## 2 1.0016853 0.9974674 1.0355947 1.0470456 1.0527979 1.076933
1.036817
## a2018
## 1 -0.5393495
## 2 1.0337533
##
## Clustering vector:
## UE27 UE28 Belgium Bulgaria Czechia
## 1 1 2 1 2

## Denmark Germany Estonia Ireland Greece

## 2 2 2 2 1

## Spain France Croatia Italy Cyprus

## 1 1 1 1 2

## Latvia Lithuania Luxembourg Hungary Malta

## 1 1 2 1 1

## Netherlands Austria Poland Portugal Romania

## 2 1 1 1 1

## Slovenia Slovakia Finland Sweden United Kingdom

## 1 1 2 1 1

## Iceland Liechtenstein Norway Switzerland Turkey

## 2 1 2 1 1

##
## Within cluster sum of squares by cluster:
## [1] 134.5915 302.5709
## (between_SS / total_SS = 55.7 %)
##
## Available components:
##
## [1] "cluster" "centers" "totss" "withinss"
"tot.withinss"
## [6] "betweenss" "size" "iter" "ifault" "crit"

## [11] "bestk"

Segun el criterio del indice de silueta nos dice que seleccionemos 2 clusters de tamañ os 12,
23
El país UE27 pertenece al grupo 2, … , el país Turquía pertenece al grupo 2.
El indice de homogeneidad es 55.7%
Por recomendació n de ambos criterios, vamos a trabajar con cluster
res=kmeans(scale(emisiones),4)
plotcluster(emisiones,res$cluster)

clusplot(emisiones,res$cluster, color = TRUE,


shade = TRUE, labels =2,lines=0,
main ="Gráfico de Conglomerados")
En este caso, se
obtienen 4 clusters. Uno de ellos só lo tiene una observació n. Esto es Luxemburgo. Esto
puede explicarse por el hecho de que está demasiado lejos de los demá s y, por tanto, no
consigue unirse a ellos. Los otros 3 grupos está n bien diferenciados. Los que emiten poco y
reducen sus emisiones aparecen en azul. Los que no reducen sus emisiones pero no
contaminan mucho aparecen en negro. Por ú ltimo, los que producen gases de efecto
invernadero y no los reducen aparecen en rojo.
En el grupo 1 tenemos a los paises: UE27, UE28, Bulgaria, Grecia, Españ a, Francia, Italia,
Austria, Polonia, Eslovenia, Eslovaquia, Reino Unido y Noruega.
En el grupo 2 tenemos a los paises: Croacia Letonia Lituania Hungría Malta Portugal
Rumanía Suecia Liechtenstein Suiza y Turquía
En el grupo 3 tenemos al país: Luxemburgo
En el grupo 4 tenemos a los paises: Bélgica Chequia Dinamarca Alemania Estonia Irlanda
Chipre Países Bajos Finlandia y Islandia
Ademas estos componentes explican el 96.64% de los puntos de variabilidad.
res$cluster

## UE27 UE28 Belgium Bulgaria Czechia

## 1 1 4 2 4

## Denmark Germany Estonia Ireland Greece


## 4 4 4 4 1

## Spain France Croatia Italy Cyprus

## 2 2 2 1 4

## Latvia Lithuania Luxembourg Hungary Malta

## 2 2 3 2 2

## Netherlands Austria Poland Portugal Romania

## 4 1 1 2 2

## Slovenia Slovakia Finland Sweden United Kingdom

## 1 1 4 2 1

## Iceland Liechtenstein Norway Switzerland Turkey

## 4 2 1 2 2

En el grupo 1 tenemos a los paises: UE27, UE28, Bulgaria, Grecia, Españ a, Francia, Italia,
Austria, Polonia, Eslovenia, Eslovaquia, Reino Unido y Noruega.
En el grupo 2 tenemos a los paises: Croacia Letonia Lituania Hungría Malta Portugal
Rumanía Suecia Liechtenstein Suiza y Turquía
En el grupo 4 tenemos al país: Luxemburgo
En el grupo 3 tenemos a los paises: Bélgica Chequia Dinamarca Alemania Estonia Irlanda
Chipre Países Bajos Finlandia y Islandia

Perfilado y caracterización de clusters

Adicionar los cluster a la base de datos


emisiones.new<-cbind(emisiones,res$cluster)
colnames(emisiones.new)<-c(colnames(emisiones.new[,-length(emisiones.new)]),
"cluster.km")
head(emisiones.new)

## a1990 a1991 a1992 a1993 a1994 a1995 a1996 a1997 a1998 a1999 a2000
## UE27 11.7 11.4 11.1 10.8 10.8 10.9 11.1 10.9 10.8 10.6 10.6
## UE28 12.0 11.8 11.4 11.2 11.1 11.2 11.4 11.2 11.1 10.9 10.8
## Belgium 15.0 15.2 15.1 14.9 15.3 15.5 15.9 15.1 15.6 15.0 15.1
## Bulgaria 11.8 9.7 9.2 9.2 8.8 9.0 9.0 8.7 8.3 7.4 7.3
## Czechia 19.3 17.6 16.9 16.2 15.4 15.4 15.6 15.2 14.6 13.7 14.7
## Denmark 14.1 16.1 14.9 15.3 16.0 15.4 17.8 15.9 15.1 14.6 13.8
## a2001 a2002 a2003 a2004 a2005 a2006 a2007 a2008 a2009 a2010 a2011
## UE27 10.7 10.6 10.8 10.8 10.7 10.6 10.5 10.3 9.5 9.7 9.5
## UE28 10.9 10.8 11.0 10.9 10.8 10.8 10.7 10.4 9.6 9.8 9.5
## Belgium 14.8 14.7 14.7 14.7 14.3 13.9 13.5 13.5 12.1 12.7 11.6
## Bulgaria 7.9 7.7 8.4 8.3 8.4 8.6 9.2 9.0 7.9 8.3 9.1
## Czechia 14.8 14.5 14.8 14.9 14.7 14.8 14.9 14.3 13.3 13.5 13.4
## Denmark 14.0 13.8 14.7 13.6 12.8 14.2 13.3 12.5 11.9 11.9 10.9
## a2012 a2013 a2014 a2015 a2016 a2017 a2018 cluster.km
## UE27 9.3 9.1 8.8 8.9 8.9 8.9 8.7 1
## UE28 9.3 9.1 8.7 8.8 8.7 8.8 8.6 1
## Belgium 11.3 11.2 10.6 11.0 10.8 10.8 10.8 4
## Bulgaria 8.4 7.7 8.2 8.7 8.4 8.8 8.3 2
## Czechia 12.9 12.4 12.2 12.3 12.5 12.4 12.2 4
## Denmark 10.1 10.3 9.6 9.0 9.3 8.9 8.9 4

Tabla de medias
med<-aggregate(x = emisiones.new[,1:7],by =
list(emisiones.new$cluster.km),FUN = mean)
med

## Group.1 a1990 a1991 a1992 a1993 a1994 a1995


a1996
## 1 1 11.570000 11.220000 10.84 10.690000 10.690000 10.840000
11.090000
## 2 2 8.671429 8.271429 7.65 7.435714 7.257143 7.271429
7.407143
## 3 3 34.400000 35.600000 34.50 34.400000 32.200000 26.100000
26.000000
## 4 4 16.230000 16.010000 15.04 14.680000 14.870000 14.700000
15.360000

Describir variables
par(mfrow=c(2,4))
for (i in 1:length(emisiones.new[,1:29])) {

boxplot(emisiones.new[,i]~emisiones.new$cluster.km,
main=names(emisiones.new[i]), type="l")
}
En el añ o 1991: En el grupo 1 presenta bajo porcentaje de emisiones de gases, En el grupo 2
presenta muy bajo porcentaje de emisiones de gases, En el grupo 3 presenta alto
porcentaje de emisiones de gases, En el grupo 3 presenta muy alto porcentaje de emisiones
de gases. . . . En el añ o 2018: En el grupo 1 presenta bajo porcentaje de emisiones de gases,
En el grupo 2 presenta muy bajo porcentaje de emisiones de gases, En el grupo 3 presenta
alto porcentaje de emisiones de gases, En el grupo 3 presenta muy alto porcentaje de
emisiones de gases.

PAM

metodo particional
res=pam(scale(emisiones),4) # normalizacion Z
res

## Medoids:
## ID a1990 a1991 a1992 a1993 a1994
## UE27 1 -0.1238809 -0.1241630 -0.06470121 -0.07791954 -0.06483063
## Netherlands 21 0.4827788 0.5971890 0.77260857 0.82473993 0.87066405
## Hungary 19 -0.5877972 -0.6343876 -0.74977285 -0.69249621 -0.72166733
## Luxembourg 18 3.9264650 4.1335731 4.38826446 4.45458335 4.19465582
## a1995 a1996 a1997 a1998 a1999
## UE27 -0.01204485 -0.03687372 -0.04706348 -0.04601189 -0.05516575
## Netherlands 1.06530036 1.09521404 1.09145741 1.15540956 0.94784782
## Hungary -0.85518459 -0.82933515 -0.89489818 -0.91512527 -0.83250126
## Luxembourg 3.54787848 3.33674781 3.22315610 2.91919849 3.15447767
## a2000 a2001 a2002 a2003 a2004
## UE27 -0.0435587 -0.0573361 -0.07455773 -0.09157029 -0.09688378
## Netherlands 0.8760139 0.8027054 0.74091745 0.65852674 0.63281049
## Hungary -0.8663342 -0.8218174 -0.84343433 -0.81893710 -0.78365486
## Luxembourg 3.2717426 3.4306100 3.74652599 3.77256593 4.15251227
## a2005 a2006 a2007 a2008 a2009
a2010
## UE27 -0.09417771 -0.1302493 -0.1550273 -0.1455982 -0.1470812 -
0.1546553
## Netherlands 0.58704108 0.5146436 0.5117214 0.5687855 0.6980870
0.7718831
## Hungary -0.77539651 -0.8418552 -0.8907499 -0.9076075 -0.9154160 -
0.9105156
## Luxembourg 4.30078227 4.1171485 3.9144384 3.9502019 4.0275376
3.9416199
## a2011 a2012 a2013 a2014 a2015
a2016
## UE27 -0.1336976 -0.1201878 -0.1138304 -0.1246125 -0.0791696 -
0.08397137
## Netherlands 0.6677492 0.6992742 0.7379348 0.7361975 0.9147531
0.88589800
## Hungary -0.9351443 -0.9942806 -1.0205481 -0.9567289 -0.8923791 -
0.84811088
## Luxembourg 4.0028018 3.9498069 3.6229458 3.5194833 3.3845005
3.11953654
## a2017 a2018
## UE27 -0.1149705 -0.1346386
## Netherlands 0.7889640 0.7089306
## Hungary -0.7856315 -0.7454992
## Luxembourg 3.1216980 3.2396385
## Clustering vector:
## UE27 UE28 Belgium Bulgaria Czechia

## 1 1 2 3 2

## Denmark Germany Estonia Ireland Greece

## 2 2 2 2 1

## Spain France Croatia Italy Cyprus

## 1 3 3 1 2

## Latvia Lithuania Luxembourg Hungary Malta

## 3 3 4 3 3

## Netherlands Austria Poland Portugal Romania

## 2 1 1 3 3

## Slovenia Slovakia Finland Sweden United Kingdom

## 1 1 2 3 1

## Iceland Liechtenstein Norway Switzerland Turkey

## 2 3 1 3 3

## Objective function:
## build swap
## 1.574956 1.574956
##
## Available components:
## [1] "medoids" "id.med" "clustering" "objective" "isolation"
## [6] "clusinfo" "silinfo" "diss" "call" "data"

Para el clusters 1 el país UE27 forma el centro


Para el clusters 2 el país Paises Bajos forma el centro
Para el clusters 3 el país Hungría forma el centro
Para el clusters 4 el país Luxenburgo forma el centro
Envase a ellos se van a formar el resto, ademas vemos sus coordenadas estandarizadas
plot(res)
Vemos 2 graficos: 1 grafico el clusters y el grafico de silueta
El grafico de clusters indica que estos 2 componentes explican el 96.64% de la variabilidad
de los puntos
El grafico de siluesta con n=35 tiene un indice se silueta de 0.41
El clusters 1 con n=11 tiene un indice se silueta de 0.42
El clusters 2 con n=10 tiene un indice se silueta de 0.36
El clusters 3 con n=13 tiene un indice se silueta de 0.46
El clusters 3 con n=1 tiene un indice se silueta de 0.0
Probando un pam con 10 clusters
asw<-numeric()
for(h in 2:10){
res<-pam(scale(emisiones),h)
asw[h-1]<-res$silinfo$avg.width
}
plot(2:10,asw,type="b",xlab="k",ylab="ASW")

El asw empezo en 2 clusters con 0.5, paso a 3 clusters y disminuyo a 0.35,


4 clusters a 0.40,
5 clusters a 0.33,
6 clusters a 0.34,
7 clusters a 0.32,
8 clusters a 0.33,
9 clusters a 0.32,
10 clusters a 0.29.
Por tanto, el que tiene mayor homogeneidad seria con 2 cluster.

Grafico de siluestas
par(mfrow=c(1,3))
for(h in 2:4){
res=pam(scale(emisiones),h)
plot(res,which.plots=2)
}

La silueta 1 con 2 clusters tiene un promedio de indice de 0.5


La silueta 2 con 3 clusters tiene un promedio de indice de 0.35
La silueta 3 con 4 clusters tiene un promedio de indice de 0.41
Nos quedamos con 2 clusters debido a que el promedio de silueta es mayor con 2 clusters
coeficientes promedio de silueta
pamk(scale(emisiones),criterion="asw")

## $pamobject
## Medoids:
## ID a1990 a1991 a1992 a1993 a1994
## Switzerland 34 -0.6948548 -0.5991997 -0.5404454 -0.5772631 -0.6221466
## Netherlands 21 0.4827788 0.5971890 0.7726086 0.8247399 0.8706641
## a1995 a1996 a1997 a1998 a1999
a2000
## Switzerland -0.6678202 -0.7161264 -0.7495551 -0.710628 -0.6569739 -
0.6485407
## Netherlands 1.0653004 1.0952140 1.0914574 1.155410 0.9478478
0.8760139
## a2001 a2002 a2003 a2004 a2005
a2006
## Switzerland -0.6545871 -0.7036386 -0.7507465 -0.7192701 -0.7094721 -
0.7306668
## Netherlands 0.8027054 0.7409175 0.6585267 0.6328105 0.5870411
0.5146436
## a2007 a2008 a2009 a2010 a2011
a2012
## Switzerland -0.8217759 -0.7647308 -0.6849156 -0.6666897 -0.7800256 -
0.7211266
## Netherlands 0.5117214 0.5687855 0.6980870 0.7718831 0.6677492
0.6992742
## a2013 a2014 a2015 a2016 a2017
a2018
## Switzerland -0.6633563 -0.7558732 -0.8020225 -0.8187209 -0.873109 -
0.8909421
## Netherlands 0.7379348 0.7361975 0.9147531 0.8858980 0.788964
0.7089306
## Clustering vector:
## UE27 UE28 Belgium Bulgaria Czechia

## 1 1 2 1 2

## Denmark Germany Estonia Ireland Greece

## 2 2 2 2 2

## Spain France Croatia Italy Cyprus

## 1 1 1 1 2

## Latvia Lithuania Luxembourg Hungary Malta

## 1 1 2 1 1
## Netherlands Austria Poland Portugal Romania

## 2 1 2 1 1

## Slovenia Slovakia Finland Sweden United Kingdom

## 1 1 2 1 2

## Iceland Liechtenstein Norway Switzerland Turkey

## 2 1 2 1 1

## Objective function:
## build swap
## 3.034255 2.589189
##
## Available components:
## [1] "medoids" "id.med" "clustering" "objective" "isolation"
## [6] "clusinfo" "silinfo" "diss" "call" "data"
##
## $nc
## [1] 2
##
## $crit
## [1] 0.0000000 0.4988386 0.3548675 0.4060404 0.3231428 0.3339764 0.3160318
## [8] 0.3222885 0.3155829 0.2842144

Segun el promedio de silueta recomieda 2 cluster para agrupar

CH CALINSKI HARABATZ
pamk(scale(emisiones),criterion="ch")

## $pamobject
## Medoids:
## ID a1990 a1991 a1992 a1993
a1994
## UE28 2 -0.07035214 -0.05378722 -0.007611907 -0.001097458 -
0.005118208
## Belgium 3 0.46493588 0.54440711 0.696489502 0.709506809
0.830855770
## Italy 14 -0.56995429 -0.51122995 -0.426266799 -0.404413394 -
0.423105197
## Estonia 8 2.37412979 2.07508084 1.191263465 0.575068164
0.771143343
## Ireland 9 0.66120815 0.72034662 0.867757412 0.959178579
1.049801335
## Croatia 13 -0.99818470 -1.17980008 -1.206487280 -1.191839745 -
1.259079174
## Hungary 19 -0.58779722 -0.63438760 -0.749772852 -0.692496205 -
0.721667332
## Luxembourg 18 3.92646503 4.13357310 4.388264459 4.454583355
4.194655822
## Iceland 31 0.55415054 0.42124945 0.468132288 0.555862643
0.512389492
## a1995 a1996 a1997 a1998 a1999
## UE28 0.05821679 0.03105155 0.02560807 0.03067459 0.02006027
## Belgium 1.06530036 1.04993053 0.97033817 1.18097172 1.04814918
## Italy -0.36335308 -0.44442531 -0.41042121 -0.32719563 -0.25576846
## Estonia 0.71399214 0.77822947 0.84921893 0.69529071 0.47141638
## Ireland 1.34634694 1.32163160 1.52748669 1.76890136 1.80040935
## Croatia -1.39385720 -1.37273727 -1.35515131 -1.37524412 -1.25878203
## Hungary -0.85518459 -0.82933515 -0.89489818 -0.91512527 -0.83250126
## Luxembourg 3.54787848 3.33674781 3.22315610 2.91919849 3.15447767
## Iceland 0.76083324 0.71030421 0.94611432 1.18097172 1.37412859
## a2000 a2001 a2002 a2003 a2004
## UE28 0.004839856 -0.009556017 -0.02795915 -0.04610986 -0.07542218
## Belgium 1.045408882 0.922155614 0.88071320 0.79490802 0.74011847
## Italy -0.237152941 -0.248456435 -0.23765277 -0.22795157 -0.20419176
## Estonia 0.392028331 0.420464736 0.34482951 0.61306632 0.63281049
## Ireland 1.843985111 1.853867246 1.64958980 1.47681441 1.27665838
## Croatia -1.205124128 -1.108497941 -1.02982866 -0.97804860 -0.93388603
## Hungary -0.866334212 -0.821817439 -0.84343433 -0.81893710 -0.78365486
## Luxembourg 3.271742612 3.430610006 3.74652599 3.77256593 4.15251227
## Iceland 1.335800238 1.089385907 1.06710753 0.95401951 0.95473444
## a2005 a2006 a2007 a2008 a2009
a2010
## UE28 -0.07220291 -0.08577393 -0.1090446 -0.1217854 -0.1214701 -
0.1302727
## Belgium 0.69691508 0.60359430 0.5347127 0.6164111 0.5188089
0.5768224
## Italy -0.18207691 -0.24143772 -0.2929753 -0.3122877 -0.3775817 -
0.3740986
## Estonia 0.65296548 0.55911893 1.2474440 0.9736030 0.6212535
1.3570653
## Ireland 1.37813388 1.24848716 1.1554786 1.1402925 1.0310321
0.8694135
## Croatia -0.90724531 -0.90856827 -0.8677585 -0.8837947 -0.8641937 -
0.9105156
## Hungary -0.77539651 -0.84185521 -0.8907499 -0.9076075 -0.9154160 -
0.9105156
## Luxembourg 4.30078227 4.11714851 3.9144384 3.9502019 4.0275376
3.9416199
## Iceland 0.87271348 1.29296253 1.4543659 1.7356123 1.7225333
1.5521260
## a2011 a2012 a2013 a2014 a2015
a2016
## UE28 -0.1336976 -0.1201878 -0.1138304 -0.1533062 -0.1092885 -
0.1427513
## Belgium 0.4092180 0.4261202 0.4631718 0.3918735 0.5533267
0.4744383
## Italy -0.3663757 -0.3933418 -0.5259748 -0.5837112 -0.5309527 -
0.5248211
## Estonia 1.5467553 1.4914209 1.9743681 1.9700252 1.4267739
1.7088175
## Ireland 0.7453085 0.8631666 0.9302689 1.0231342 1.2159418
1.2679677
## Croatia -0.9092912 -0.9942806 -1.0205481 -1.0141162 -1.0128546 -
0.9656708
## Hungary -0.9351443 -0.9942806 -1.0205481 -0.9567289 -0.8923791 -
0.8481109
## Luxembourg 4.0028018 3.9498069 3.6229458 3.5194833 3.3845005
3.1195365
## Iceland 1.5467553 1.7099441 1.7820340 1.9700252 2.2399834
2.2672271
## a2017 a2018
## UE28 -0.1441296 -0.1637272
## Belgium 0.4390539 0.4762219
## Italy -0.5815173 -0.5418790
## Estonia 1.9553310 1.7852087
## Ireland 1.1680333 1.1743482
## Croatia -0.9022682 -0.9200307
## Hungary -0.7856315 -0.7454992
## Luxembourg 3.1216980 3.2396385
## Iceland 2.3635594 2.4251578
## Clustering vector:
## UE27 UE28 Belgium Bulgaria Czechia

## 1 1 2 3 2

## Denmark Germany Estonia Ireland Greece

## 2 2 4 5 1

## Spain France Croatia Italy Cyprus

## 3 3 6 3 2

## Latvia Lithuania Luxembourg Hungary Malta

## 6 7 8 7 7

## Netherlands Austria Poland Portugal Romania

## 2 1 1 7 7

## Slovenia Slovakia Finland Sweden United Kingdom


## 3 3 2 7 1

## Iceland Liechtenstein Norway Switzerland Turkey

## 9 7 1 7 6

## Objective function:
## build swap
## 0.9879691 0.9744464
##
## Available components:
## [1] "medoids" "id.med" "clustering" "objective" "isolation"
## [6] "clusinfo" "silinfo" "diss" "call" "data"
##
## $nc
## [1] 9
##
## $crit
## [1] 0.00000 38.85648 30.03803 78.94525 71.80541 81.01012 73.40502
77.03702
## [9] 82.89823 80.51983

Segun CALINSKI HARABATZ recomieda 9 cluster para agrupar


res=pam(scale(emisiones),2)
plotcluster(emisiones,res$clustering)
clusplot(emisiones,res$clustering, color = TRUE,
shade = TRUE, labels =2,lines=0,
main ="Gráfico de Conglomerados")

En este caso, se obtienen 4 clusters. Uno de ellos só lo tiene una observació n. Esto es
Luxemburgo. Esto puede explicarse por el hecho de que está demasiado lejos de los demá s
y, por tanto, no consigue unirse a ellos. Los otros 3 grupos está n bien diferenciados. Los que
emiten poco y reducen sus emisiones aparecen en rojo. Los que no reducen sus emisiones
pero no contaminan mucho aparecen en negro. Por ú ltimo, los que producen gases de
efecto invernadero y no los reducen aparecen en verde.
En el grupo 1 tenemos a los paises: UE27, UE28, Bulgaria, Grecia, Españ a, Francia, Italia,
Austria, Polonia, Eslovenia, Eslovaquia, Reino Unido y Noruega.
En el grupo 3 tenemos a los paises: Croacia Letonia Lituania Hungría Malta Portugal
Rumanía Suecia Liechtenstein Suiza y Turquía
En el grupo 4 tenemos al país: Luxemburgo
En el grupo 2 tenemos a los paises: Bélgica Chequia Dinamarca Alemania Estonia Irlanda
Chipre Países Bajos Finlandia y Islandia
#PERFILAMIENTO
DATANUEVA= cbind(emisiones,clu=res$clustering)

attach(DATANUEVA)
par(mfrow=c(2,4))
boxplot(a1990~clu)
boxplot(a1991~clu)
boxplot(a1992~clu)
boxplot(a1993~clu)
boxplot(a2015~clu)
boxplot(a2016~clu)
boxplot(a2017~clu)
boxplot(a2018~clu)

En el añ o 1991:
En el grupo 1 presenta bajo porcentaje de emisiones de gases, En el grupo 2 presenta alto
porcentaje de emisiones de gases, En el grupo 3 presenta my bajo porcentaje de emisiones
de gases, En el grupo 3 presenta muy alto porcentaje de emisiones de gases. . . . En el añ o
2018: En el grupo 1 presenta bajo porcentaje de emisiones de gases, En el grupo 2 presenta
alto porcentaje de emisiones de gases, En el grupo 3 presenta my bajo porcentaje de
emisiones de gases, En el grupo 3 presenta muy alto porcentaje de emisiones de gases.
library(factoextra)

## Warning: package 'factoextra' was built under R version 4.2.1

## Loading required package: ggplot2

##
## Attaching package: 'ggplot2'
## The following object is masked from 'package:kernlab':
##
## alpha

## Welcome! Want to learn more? See two factoextra-related books at


https://goo.gl/ve3WBa

Cluster Jerárquico Aglomerativo

Usando el enlace de Ward


res.hc=hclust(dist(scale(emisiones)),method="ward.D") #la matriz de
disimilaridades = distancias #puedes usar una base de datos con variables
cualis y cuantis esto no se podria hacer en el de k medias
plot(res.hc)

Este es el dedrograma, podemos visualizar muy claramente 2 grupos, 1 un grupo a la


izquierda y otro a la derecha.

Cortando el dendrograma considerando cuatro conglomerados


(res.hc4=cutree(res.hc, k=4))

## UE27 UE28 Belgium Bulgaria Czechia

## 1 1 2 1 2
## Denmark Germany Estonia Ireland Greece

## 2 2 2 2 1

## Spain France Croatia Italy Cyprus

## 1 1 3 1 2

## Latvia Lithuania Luxembourg Hungary Malta

## 3 3 4 3 3

## Netherlands Austria Poland Portugal Romania

## 2 1 1 3 3

## Slovenia Slovakia Finland Sweden United Kingdom

## 1 1 2 3 2

## Iceland Liechtenstein Norway Switzerland Turkey

## 2 3 2 3 3

fviz_dend(res.hc, cex = 0.6, k = 4, palette = "jco")

## Warning: `guides(<scale> = FALSE)` is deprecated. Please use


`guides(<scale> =
## "none")` instead.
Le hemos dicho
4 grupos y a pintado de 4 colores (azul, amarillo, plomo y rojo) diferentes la jerarquizacion,
Si se corta a la altura de 15 se tendría 5 grupos
Si se corta a la altura de 5 se tendría 7 grupos

Cortando el dendrograma considerando una altura de 4


(res.hc4=cutree(res.hc, h=4))

## UE27 UE28 Belgium Bulgaria Czechia

## 1 1 2 3 2

## Denmark Germany Estonia Ireland Greece

## 4 4 5 6 1

## Spain France Croatia Italy Cyprus

## 3 3 7 3 4

## Latvia Lithuania Luxembourg Hungary Malta

## 7 7 8 9 9

## Netherlands Austria Poland Portugal Romania


## 2 1 1 9 9

## Slovenia Slovakia Finland Sweden United Kingdom

## 3 3 2 9 4

## Iceland Liechtenstein Norway Switzerland Turkey

## 6 9 4 9 7

fviz_dend(res.hc, cex = 0.6, h = 4, palette = "jco")

## Warning: `guides(<scale> = FALSE)` is deprecated. Please use


`guides(<scale> =
## "none")` instead.

Para una altura de 4 ha encontrado 10 grupos

Clustering jerarquico aglomerativo usando Agnes


library(cluster)

Usando el enlace simple


res.hc.s=hclust(dist(scale(emisiones)),method="single")
plot(res.hc.s)
Con el enlace
simple crea muchos grupos

Usando el enlace completo


res.hc.s=hclust(dist(scale(emisiones)),method="complete")
plot(res.hc.s)
Con el enlace completo encuentra 3 grupos
res.hc.s=hclust(dist(scale(emisiones)),method="average")
plot(res.hc.s)
Con el enlace promedio encuentra 2 grupos
res.hc.s=hclust(dist(scale(emisiones)),method="centroid")
plot(res.hc.s)
Con el metodo centroide encuentra 2 grupos
Notar que en aspectos de distancias y jerarquías , mejor es el metodo ward.d, se logra
mostrar con gran precision los grupos, tiene una muy buena jerarquizacion.

AGNES aglomerative nesting


Tecnica aglomerativo, ventaja nos da un coeficeinte de aglomeracion
res.agnes.single = agnes(scale(emisiones), method="single")
res.agnes.single

## Call: agnes(x = scale(emisiones), method = "single")


## Agglomerative coefficient: 0.8805756
## Order of objects:
## [1] UE27 UE28 Austria Spain Italy

## [6] France Slovenia Slovakia Greece Hungary

## [11] Romania Sweden Liechtenstein Switzerland Malta

## [16] Portugal Cyprus Norway Poland Bulgaria

## [21] Germany Belgium Netherlands Czechia Finland


## [26] Denmark Croatia Latvia Lithuania Turkey

## [31] United Kingdom Ireland Estonia Iceland


Luxembourg
## Height (summary):
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.2637 0.9191 1.3031 1.7481 1.6511 13.8463
##
## Available components:
## [1] "order" "height" "ac" "merge" "diss" "call"

## [7] "method" "order.lab" "data"

0.8805756 este valor tiende a 1 el dendrogrma ayuda a diferenciar mejor el grupo


res.agnes.single

## Call: agnes(x = scale(emisiones), method = "single")


## Agglomerative coefficient: 0.8805756
## Order of objects:
## [1] UE27 UE28 Austria Spain Italy

## [6] France Slovenia Slovakia Greece Hungary

## [11] Romania Sweden Liechtenstein Switzerland Malta

## [16] Portugal Cyprus Norway Poland Bulgaria

## [21] Germany Belgium Netherlands Czechia Finland

## [26] Denmark Croatia Latvia Lithuania Turkey

## [31] United Kingdom Ireland Estonia Iceland


Luxembourg
## Height (summary):
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.2637 0.9191 1.3031 1.7481 1.6511 13.8463
##
## Available components:
## [1] "order" "height" "ac" "merge" "diss" "call"

## [7] "method" "order.lab" "data"

plot(res.agnes.single)
Tenemos 2 graficos: grafico de banner y el grafico del dendrograma con el metodo simple
El coeficiente aglomeracion es 0.88 con el metodo simple
res.agnes.ward=agnes(scale(emisiones),method="ward")
res.agnes.ward

## Call: agnes(x = scale(emisiones), method = "ward")


## Agglomerative coefficient: 0.9362388
## Order of objects:
## [1] UE27 UE28 Austria Greece Poland

## [6] Bulgaria Slovakia Spain Italy France

## [11] Slovenia Croatia Latvia Turkey Lithuania

## [16] Hungary Romania Sweden Liechtenstein Malta

## [21] Switzerland Portugal Belgium Netherlands Finland

## [26] Czechia Ireland Denmark United Kingdom Germany

## [31] Cyprus Norway Estonia Iceland


Luxembourg
## Height (summary):
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.2637 1.2231 1.7617 3.9932 3.4618 32.9763
##
## Available components:
## [1] "order" "height" "ac" "merge" "diss" "call"

## [7] "method" "order.lab" "data"

plot(res.agnes.ward)
El coeficiente aglomeracion es 0.94 con el metodo ward, ya que tiende a uno es una manera
eficiente de agrupar en el dendrograma.
Usando matriz de disimilaridad
diss.emisiones=daisy(scale(emisiones))
res.agnes.ward2 =agnes(diss.emisiones,method="ward")
plot(res.agnes.ward2)
Usando matriz de disimilaridad daysi, con el metodo ward tenemos el coeficiente
aglomeracion es 0.94 con el metodo ward, ya que tiende a uno es una manera eficiente de
agrupar en el dendrograma.
Determinando el número optimo de conglomerados

Indice de Silueta
par(mfrow=c(1,3))
for(h in 2:4){
conglomerados=cutree(res.agnes.ward2,k=h)
plot(silhouette(conglomerados,diss.emisiones))
}

La silueta 1 con 2 clusters tiene un promedio de indice de 0.52


La silueta 2 con 3 clusters tiene un promedio de indice de 0.52
La silueta 3 con 4 clusters tiene un promedio de indice de 0.41
De este grafico de indice de silueta aceptamos el 1er y 2do grafico de silueta ya que tienen
el coeficiente de 0.52 con 2 y3 clusters reséctivamente.
par(mfrow=c(1,1))
fviz_dend(res.agnes.ward2, cex = 0.7,
k = 2,
palette = "jco"
)
## Warning: `guides(<scale> = FALSE)` is deprecated. Please use
`guides(<scale> =
## "none")` instead.

Nuevamente se uso 2 conglomerados por que es el que esta maximizando el indice de la


silueta
Le hemos dicho 2 grupos y a pintado de 2 colores (azul y amarillo) diferentes la
jerarquizacion,

Conclusión:
Hemos probado diferentes modelos y se recomienda utilizar 2 y 4 clusters, dependiendo de
la informació n que queramos introducir.
Existen grandes diferencias entre los países de la UE en cuanto a las emisiones de gases de
efecto invernadero. Esto se debe a las toneladas de estos gases emitidas, pero también a la
reducció n de estas emisiones en las ú ltimas décadas.
Las naciones má s avanzadas en este sentido son : Croacia Letonia Lituania Hungría Malta
Portugal Rumanía Suecia Liechtenstein Suiza y Turquía (Clusters 2)
También podemos distinguir los países que está n haciendo progresos significativos, como
UE27, UE28, Bulgaria, Grecia, Españ a, Francia, Italia, Austria, Polonia, Eslovenia,
Eslovaquia, Reino Unido y Noruega (Clusters 1)
Por ú ltimo, los países que emiten demasiado pero que no tienen mucho margen de
reducció n: Bélgica Chequia Dinamarca Alemania Estonia Irlanda Chipre Países Bajos
Finlandia y Islandia (Clusters 3)
El país má s destacado es Luxemburgo. Es un país bastante rico y social y econó micamente
avanzado, pero emiten mucho, e y no está reduciendo sus emisiones. Una posible
explicació n de este fenó meno en Luxemburgo es que hay muchos trabajadores
transfronterizos. Contaminan y al final del día regresan a sus países de origen. Así que no
cuentan como habitantes pero contribuyen a las emisiones de gases.

You might also like