Exposición

Análisis de Cluster
Dayana Gianina Arque Paccori
2022-09-11
Análisis cluster con r, aplicado a las emisiones de gases de efecto invernadero

de los países de la Unión Europea.
Principalmente se desarrollará clasificaciones diferentes, basadas por un lado, en los países
má s y menos emisores de gases, y por otro, en los países que má s o menos han reducido
sus emisiones de gases, incluso los que las han aumentado y vamos hacer el perfilamiento
de los cluster, para indicar que diferencia a un cluster de otro. La data se llama
emisiones.xlsx.
Los pasos que vamos a seguir son:
• Definició n del problema
• Descripció n de la data
• Objetivo
• Nú mero de Clusters ó ptimo
• Aná lisis Cluster con Kmeans
• Aná lisis Cluster con algoritmo PAM
• Aná lisis Cluster Jerá rquico: método aglomerativo
• Dendograma
• Conclusiones
Definición del problema

El aná lisis de conglomerados consiste en dividir la població n en al menos dos grupos que
sean lo má s diferentes posible pero cuyos elementos sean lo má s parecidos. El objetivo es
maximizar la distancia entre grupos y minimizar la distancia dentro de cada grupo.
Descripción de la data
Los datos se descargaron de EUROSTAT. Se analizan las emisiones de gases de efecto
invernadero por país y por añ o desde 1990. La informació n se mide en toneladas por
persona.
Objetivo
El objetivo es situar a los países en relació n con sus emisiones.
Número de grupos
En esta fase del aná lisis, la pregunta má s habitual es cuá ntos grupos hay que crear para
optimizar la clasificació n. En teoría, cuantos má s conglomerados se tengan, menos
dispersió n habrá dentro de los conglomerados. Esto es positivo, pero si hay muchas
divisiones, la interpretació n de los grupos es demasiado complicada y las diferencias se
vuelven demasiado insignificantes.
library(cluster)
library(fpc)
## Warning: package 'fpc' was built under R version 4.2.1
library(mclust)
## Warning: package 'mclust' was built under R version 4.2.1
## Package 'mclust' version 5.4.10

## Type 'citation("mclust")' for citing this R package in publications.
library(flexmix)
## Warning: package 'flexmix' was built under R version 4.2.1
## Loading required package: lattice
library(prabclus)
## Warning: package 'prabclus' was built under R version 4.2.1
## Loading required package: MASS
##
## Attaching package: 'prabclus'
## The following object is masked from 'package:fpc':

##
## con.comp
library(diptest)
library(trimcluster)
## Warning: package 'trimcluster' was built under R version 4.2.1
library(plyr)
## Warning: package 'plyr' was built under R version 4.2.1
library(modeltools)
## Loading required package: stats4

##
## Attaching package: 'modeltools'
## The following object is masked from 'package:plyr':

##
## empty
library(mvtnorm)
##
## Attaching package: 'mvtnorm'
## The following object is masked from 'package:mclust':

##
## dmvnorm
library(robustbase)
## Warning: package 'robustbase' was built under R version 4.2.1
library(kernlab)
##
## Attaching package: 'kernlab'
## The following object is masked from 'package:modeltools':

##
## prior
## The following object is masked from 'package:flexmix':

##
## prior
Metodos Particionales
K-Medias o Kmeans
library(readxl)
## Warning: package 'readxl' was built under R version 4.2.1
emisiones <- read_excel("emisiones.xlsx")

emisiones=data.frame(emisiones)
colnames(emisiones) <- tolower(colnames(emisiones)) # para poner en minuscula
los nombres de columna
nombres=emisiones[,1]
emisiones=emisiones[,-1]
rownames(emisiones) <- nombres # para asignar nombres a las filas.
head(emisiones)
## a1990 a1991 a1992 a1993 a1994 a1995 a1996 a1997 a1998 a1999 a2000
## UE27 11.7 11.4 11.1 10.8 10.8 10.9 11.1 10.9 10.8 10.6 10.6
## UE28 12.0 11.8 11.4 11.2 11.1 11.2 11.4 11.2 11.1 10.9 10.8
## Belgium 15.0 15.2 15.1 14.9 15.3 15.5 15.9 15.1 15.6 15.0 15.1
## Bulgaria 11.8 9.7 9.2 9.2 8.8 9.0 9.0 8.7 8.3 7.4 7.3
## Czechia 19.3 17.6 16.9 16.2 15.4 15.4 15.6 15.2 14.6 13.7 14.7
## Denmark 14.1 16.1 14.9 15.3 16.0 15.4 17.8 15.9 15.1 14.6 13.8
## a2001 a2002 a2003 a2004 a2005 a2006 a2007 a2008 a2009 a2010 a2011
## UE27 10.7 10.6 10.8 10.8 10.7 10.6 10.5 10.3 9.5 9.7 9.5
## UE28 10.9 10.8 11.0 10.9 10.8 10.8 10.7 10.4 9.6 9.8 9.5
## Belgium 14.8 14.7 14.7 14.7 14.3 13.9 13.5 13.5 12.1 12.7 11.6
## Bulgaria 7.9 7.7 8.4 8.3 8.4 8.6 9.2 9.0 7.9 8.3 9.1
## Czechia 14.8 14.5 14.8 14.9 14.7 14.8 14.9 14.3 13.3 13.5 13.4
## Denmark 14.0 13.8 14.7 13.6 12.8 14.2 13.3 12.5 11.9 11.9 10.9
## a2012 a2013 a2014 a2015 a2016 a2017 a2018
## UE27 9.3 9.1 8.8 8.9 8.9 8.9 8.7
## UE28 9.3 9.1 8.7 8.8 8.7 8.8 8.6
## Belgium 11.3 11.2 10.6 11.0 10.8 10.8 10.8
## Bulgaria 8.4 7.7 8.2 8.7 8.4 8.8 8.3
## Czechia 12.9 12.4 12.2 12.3 12.5 12.4 12.2
## Denmark 10.1 10.3 9.6 9.0 9.3 8.9 8.9
CLUSTER
res<-kmeans(scale(emisiones),4) # con scale estadarizamos, se desea formar 4
grupos
res
## K-means clustering with 4 clusters of sizes 11, 1, 16, 7

##
## Cluster means:
## a1990 a1991 a1992 a1993 a1994 a1995
## 1 -0.0427767 0.01498913 0.07023714 0.1054059 0.1450676 0.2157732
## 2 3.9264650 4.13357310 4.38826446 4.4545834 4.1946558 3.5478785
## 3 -0.6000642 -0.62229176 -0.66294954 -0.6696896 -0.7154473 -0.7922419
## 4 0.8778723 0.80831637 0.77804565 0.7287123 0.8081082 0.9649266
## a1996 a1997 a1998 a1999 a2000 a2001
a2002
## 1 0.2512941 0.2458249 0.2514387 0.2388996 0.2226334 0.2206571
0.1859707
## 2 3.3367478 3.2231561 2.9191985 3.1544777 3.2717426 3.4306100
3.7465260
## 3 -0.8109387 -0.8297966 -0.8400364 -0.8121275 -0.8058360 -0.7994205 -
0.7691678
## 4 0.9820053 1.0499308 1.1079370 1.0302382 1.0246666 0.9904129
0.9306403
## a2003 a2004 a2005 a2006 a2007 a2008
a2009
## 1 0.1873914 0.1391938 0.1455474 0.1507542 0.1292292 0.1466497
0.1718941
## 2 3.7725659 4.1525123 4.3007823 4.1171485 3.9144384 3.9502019
4.0275376
## 3 -0.7734767 -0.7313422 -0.7135924 -0.7376161 -0.7542388 -0.7558010 -
0.7553462
## 4 0.9345365 0.8596902 0.7879535 0.8609161 0.9616946 0.9327810
0.8810239
## a2010 a2011 a2012 a2013 a2014 a2015
a2016
## 1 0.1246362 0.1224834 0.1281341 0.1259628 0.1049368 0.1124959
0.1190867
## 2 3.9416199 4.0028018 3.9498069 3.6229458 3.5194833 3.3845005
3.1195365
## 3 -0.7626961 -0.7444776 -0.7501492 -0.7715442 -0.7594599 -0.7681388 -
0.7819834
## 4 0.9843600 0.9373603 0.9490150 1.0480244 1.0682243 1.0954663
1.1546064
## a2017 a2018
## 1 0.08649293 0.07162595
## 2 3.12169800 3.23963847
## 3 -0.75100497 -0.74549916
## 4 1.13470848 1.12863752
##
## Clustering vector:
## UE27 UE28 Belgium Bulgaria Czechia
## 1 1 4 3 4
## Denmark Germany Estonia Ireland Greece
## 1 1 4 4 1
## Spain France Croatia Italy Cyprus
## 3 3 3 3 1
## Latvia Lithuania Luxembourg Hungary Malta
## 3 3 2 3 3
## Netherlands Austria Poland Portugal Romania
## 4 1 1 3 3
## Slovenia Slovakia Finland Sweden United Kingdom
## 1 3 4 3 1
## Iceland Liechtenstein Norway Switzerland Turkey

## 4 3 1 3 3
##
## Within cluster sum of squares by cluster:
## [1] 33.20526 0.00000 49.33515 36.37672
## (between_SS / total_SS = 87.9 %)
##
## Available components:
##
## [1] "cluster" "centers" "totss" "withinss"
"tot.withinss"
## [6] "betweenss" "size" "iter" "ifault"
Los cluster que han sido escogidos por Agrupació n de K-means son 3 clusters de tamañ os
13, 1, 10, 11
El país UE27 pertenece al grupo 1, … , el país Turquía pertenece al grupo 4.
El indice de homogeneidad es 88.5%
La suma de cuadrados en el cluster 1 es 33.87231
La suma de cuadrados en el cluster 2 es 0.00000 La suma de cuadrados en el cluster 3 es
56.47946 La suma de cuadrados en el cluster 3 es 22.59696
Determinar numero de conglomerados

kmeansruns(scale(emisiones),criterion="ch") # criterio: calinski harabats
## K-means clustering with 10 clusters of sizes 3, 6, 1, 3, 1, 8, 6, 5, 1, 1

##
## Cluster means:
## a1990 a1991 a1992 a1993 a1994 a1995
## 1 0.1259201 0.1456109 0.23343182 0.286985353 0.33325221 0.40952501
## 2 -0.1000904 -0.0625842 -0.01078354 -0.004298378 0.00815122 0.07773391
## 3 3.9264650 4.1335731 4.38826446 4.454583355 4.19465582 3.54787848
## 4 -0.9803418 -1.0331838 -1.11768170 -1.159830543 -1.25907917 -1.44850514
## 5 0.5541505 0.4212495 0.46813229 0.555862643 0.51238949 0.76083324
## 6 -0.6123313 -0.5991997 -0.66889634 -0.654085164 -0.69429914 -0.78492294
## 7 -0.3855773 -0.4437865 -0.40406540 -0.410815234 -0.42310520 -0.40238732
## 8 0.5719935 0.6288581 0.71551927 0.759441163 0.85872157 0.99503872
## 9 2.3741298 2.0750808 1.19126347 0.575068164 0.77114334 0.71399214
## 10 0.6612081 0.7203466 0.86775741 0.959178579 1.04980134 1.34634694
## a1996 a1997 a1998 a1999 a2000 a2001
## 1 0.40841414 0.43741350 0.49079344 0.52992550 0.52109116 0.50806156
## 2 0.06878781 0.08616769 0.09031963 0.07021095 0.07340448 0.06211411
## 3 3.33674781 3.22315610 2.91919849 3.15447767 3.27174261 3.43061001
## 4 -1.43311528 -1.46819594 -1.53713779 -1.48446008 -1.40678479 -1.38721510
## 5 0.71030421 0.94611432 1.18097172 1.37412859 1.33580024 1.08938591
## 6 -0.79254229 -0.82222664 -0.82885299 -0.80429150 -0.82701038 -0.83077620
## 7 -0.44819893 -0.43060775 -0.41666318 -0.40622049 -0.39041505 -0.36392497
## 8 1.10879910 1.03816495 1.03271120 0.90271221 0.86633421 0.86004151
## 9 0.77822947 0.84921893 0.69529071 0.47141638 0.39202833 0.42046474
## 10 1.32163160 1.52748669 1.76890136 1.80040935 1.84398511 1.85386725
## a2002 a2003 a2004 a2005 a2006
a2007
## 1 0.45355953 0.42364788 0.37527134 0.35996815 0.35897977
0.381437140
## 2 0.03417229 0.04481099 0.02473193 0.05598342 0.01800194 -
0.001751721
## 3 3.74652599 3.77256593 4.15251227 4.30078227 4.11714851
3.914438432
## 4 -1.32495301 -1.29627158 -1.22719451 -1.18559278 -1.16800792 -
1.135990747
## 5 1.06710753 0.95401951 0.95473444 0.87271348 1.29296253
1.454365949
## 6 -0.79392334 -0.81041327 -0.76755866 -0.76715596 -0.79460013 -
0.830397631
## 7 -0.36191565 -0.37948632 -0.35442293 -0.31758818 -0.35633243 -
0.369613026
## 8 0.82479490 0.85855262 0.73153384 0.59583100 0.71923026
0.672660674
## 9 0.34482951 0.61306632 0.63281049 0.65296548 0.55911893
1.247443964
## 10 1.64958980 1.47681441 1.27665838 1.37813388 1.24848716
1.155478638
## a2008 a2009 a2010 a2011 a2012
a2013
## 1 0.417971181 0.47612363 0.39801676 0.4092179739 0.42612024
0.41737801
## 2 0.005216135 0.01939131 -0.00429598 -0.0001231101 0.02549437
0.01439235
## 3 3.950201860 4.02753761 3.94161991 4.0028018059 3.94980688
3.62294580
## 4 -1.145735434 -1.06908293 -1.04868361 -1.0213213933 -1.03070110 -
1.01138935
## 5 1.735612288 1.72253335 1.55212604 1.5467553020 1.70994406
1.78203401
## 6 -0.815332958 -0.82257553 -0.83127217 -0.8414267590 -0.82014489 -
0.83508312
## 7 -0.363882127 -0.40319281 -0.43099131 -0.3706845124 -0.41155203 -
0.46644282
## 8 0.611648548 0.65198692 0.69873538 0.5901898215 0.53538184
0.57307702
## 9 0.973602973 0.62125353 1.35706532 1.5467553020 1.49142085
1.97436808
## 10 1.140292511 1.03103207 0.86941351 0.7453085481 0.86316665
0.93026886
## a2014 a2015 a2016 a2017 a2018
## 1 0.48751908 0.543287046 0.5626082 0.49737222 0.44713327
## 2 -0.01462011 -0.008892238 -0.0398864 -0.02749294 -0.04737286
## 3 3.51948331 3.384500451 3.1195365 3.12169800 3.23963847
## 4 -0.96629342 -0.972696078 -0.9166875 -0.87310902 -0.84246114
## 5 1.97002525 2.239983390 2.2672271 2.36355944 2.42515779
## 6 -0.84195419 -0.896143950 -0.9326071 -0.90226820 -0.89094214
## 7 -0.47371879 -0.415496983 -0.4121595 -0.40656222 -0.41098030
## 8 0.52386439 0.547302895 0.5743642 0.46821304 0.48785731
## 9 1.97002525 1.426773900 1.7088175 1.95533099 1.78520868
## 10 1.02313421 1.215941810 1.2679677 1.16803325 1.17434817
##
## 2 2 8 7 8
## 8 1 9 10 2
## 7 7 4 7 1
## 4 6 3 6 6
## 8 2 2 6 6
## 7 7 8 6 2
## 5 6 1 6 4
##
## [1] 2.611517 7.029234 0.000000 2.959890 0.000000 7.713589 5.021590
6.503359
## [9] 0.000000 0.000000
##
##
"tot.withinss"
## [6] "betweenss" "size" "iter" "ifault" "crit"
## [11] "bestk"
Segun el criterio de calinski harabats nos dice que seleccionemos con 10 clusters de
tamañ os 3, 3, 1, 1, 6, 5, 6, 1, 1, 8
La suma de cuadrados en el cluster 1 es 2.611517 . . . La suma de cuadrados en el cluster 10
es 7.713589
kmeansruns(scale(emisiones),criterion="asw") # silueta
## K-means clustering with 2 clusters of sizes 23, 12

##
## Cluster means:
## a1990 a1991 a1992 a1993 a1994 a1995
a1996
## 1 -0.4675514 -0.4752771 -0.4866656 -0.4870806 -0.5139719 -0.5466443 -
0.5615718
## 2 0.8961401 0.9109478 0.9327758 0.9335712 0.9851129 1.0477350
1.0763459
## a1997 a1998 a1999 a2000 a2001 a2002
a2003
## 1 -0.5673496 -0.573926 -0.5610335 -0.5538479 -0.54864 -0.5344655 -
0.5382684
## 2 1.0874201 1.100025 1.0753141 1.0615417 1.05156 1.0243922
1.0316811
## a2004 a2005 a2006 a2007 a2008 a2009
a2010
## 1 -0.5130521 -0.4897241 -0.5169916 -0.5338844 -0.5266029 -0.525681 -
0.5394762
## 2 0.9833499 0.9386379 0.9909006 1.0232785 1.0093222 1.007555
1.0339960
## a2011 a2012 a2013 a2014 a2015 a2016
a2017
## 1 -0.5226184 -0.5204178 -0.5403103 -0.5462847 -0.5492859 -0.561878 -
0.540948
## 2 1.0016853 0.9974674 1.0355947 1.0470456 1.0527979 1.076933
1.036817
## a2018
## 1 -0.5393495
## 2 1.0337533
##
## 1 1 2 1 2
## 2 2 2 2 1
## 1 1 1 1 2
## 1 1 2 1 1
## 2 1 1 1 1
## 1 1 2 1 1
## 2 1 2 1 1
##
## [1] 134.5915 302.5709
##
##
"tot.withinss"
## [6] "betweenss" "size" "iter" "ifault" "crit"
## [11] "bestk"
Segun el criterio del indice de silueta nos dice que seleccionemos 2 clusters de tamañ os 12,
23
Por recomendació n de ambos criterios, vamos a trabajar con cluster
res=kmeans(scale(emisiones),4)
plotcluster(emisiones,res$cluster)
clusplot(emisiones,res$cluster, color = TRUE,

shade = TRUE, labels =2,lines=0,
main ="Gráfico de Conglomerados")
En este caso, se
obtienen 4 clusters. Uno de ellos só lo tiene una observació n. Esto es Luxemburgo. Esto
puede explicarse por el hecho de que está demasiado lejos de los demá s y, por tanto, no
consigue unirse a ellos. Los otros 3 grupos está n bien diferenciados. Los que emiten poco y
reducen sus emisiones aparecen en azul. Los que no reducen sus emisiones pero no
contaminan mucho aparecen en negro. Por ú ltimo, los que producen gases de efecto
invernadero y no los reducen aparecen en rojo.
En el grupo 1 tenemos a los paises: UE27, UE28, Bulgaria, Grecia, Españ a, Francia, Italia,
Austria, Polonia, Eslovenia, Eslovaquia, Reino Unido y Noruega.
En el grupo 2 tenemos a los paises: Croacia Letonia Lituania Hungría Malta Portugal
Rumanía Suecia Liechtenstein Suiza y Turquía
En el grupo 3 tenemos al país: Luxemburgo
En el grupo 4 tenemos a los paises: Bélgica Chequia Dinamarca Alemania Estonia Irlanda
Chipre Países Bajos Finlandia y Islandia
Ademas estos componentes explican el 96.64% de los puntos de variabilidad.
res$cluster
## 1 1 4 2 4

## 4 4 4 4 1
## 2 2 2 1 4
## 2 2 3 2 2
## 4 1 1 2 2
## 1 1 4 2 1
## 4 2 1 2 2
Perfilado y caracterización de clusters
Adicionar los cluster a la base de datos

emisiones.new<-cbind(emisiones,res$cluster)
colnames(emisiones.new)<-c(colnames(emisiones.new[,-length(emisiones.new)]),
"cluster.km")
head(emisiones.new)
## a1990 a1991 a1992 a1993 a1994 a1995 a1996 a1997 a1998 a1999 a2000
## UE27 11.7 11.4 11.1 10.8 10.8 10.9 11.1 10.9 10.8 10.6 10.6
## UE28 12.0 11.8 11.4 11.2 11.1 11.2 11.4 11.2 11.1 10.9 10.8
## Belgium 15.0 15.2 15.1 14.9 15.3 15.5 15.9 15.1 15.6 15.0 15.1
## Bulgaria 11.8 9.7 9.2 9.2 8.8 9.0 9.0 8.7 8.3 7.4 7.3
## Czechia 19.3 17.6 16.9 16.2 15.4 15.4 15.6 15.2 14.6 13.7 14.7
## Denmark 14.1 16.1 14.9 15.3 16.0 15.4 17.8 15.9 15.1 14.6 13.8
## a2001 a2002 a2003 a2004 a2005 a2006 a2007 a2008 a2009 a2010 a2011
## UE27 10.7 10.6 10.8 10.8 10.7 10.6 10.5 10.3 9.5 9.7 9.5
## UE28 10.9 10.8 11.0 10.9 10.8 10.8 10.7 10.4 9.6 9.8 9.5
## Belgium 14.8 14.7 14.7 14.7 14.3 13.9 13.5 13.5 12.1 12.7 11.6
## Bulgaria 7.9 7.7 8.4 8.3 8.4 8.6 9.2 9.0 7.9 8.3 9.1
## Czechia 14.8 14.5 14.8 14.9 14.7 14.8 14.9 14.3 13.3 13.5 13.4
## Denmark 14.0 13.8 14.7 13.6 12.8 14.2 13.3 12.5 11.9 11.9 10.9
## a2012 a2013 a2014 a2015 a2016 a2017 a2018 cluster.km
## UE27 9.3 9.1 8.8 8.9 8.9 8.9 8.7 1
## UE28 9.3 9.1 8.7 8.8 8.7 8.8 8.6 1
## Belgium 11.3 11.2 10.6 11.0 10.8 10.8 10.8 4
## Bulgaria 8.4 7.7 8.2 8.7 8.4 8.8 8.3 2
## Czechia 12.9 12.4 12.2 12.3 12.5 12.4 12.2 4
## Denmark 10.1 10.3 9.6 9.0 9.3 8.9 8.9 4
Tabla de medias
med<-aggregate(x = emisiones.new[,1:7],by =
list(emisiones.new$cluster.km),FUN = mean)
med
## Group.1 a1990 a1991 a1992 a1993 a1994 a1995

a1996
## 1 1 11.570000 11.220000 10.84 10.690000 10.690000 10.840000
11.090000
## 2 2 8.671429 8.271429 7.65 7.435714 7.257143 7.271429
7.407143
## 3 3 34.400000 35.600000 34.50 34.400000 32.200000 26.100000
26.000000
## 4 4 16.230000 16.010000 15.04 14.680000 14.870000 14.700000
15.360000
Describir variables
par(mfrow=c(2,4))
for (i in 1:length(emisiones.new[,1:29])) {
boxplot(emisiones.new[,i]~emisiones.new$cluster.km,
main=names(emisiones.new[i]), type="l")
}
En el añ o 1991: En el grupo 1 presenta bajo porcentaje de emisiones de gases, En el grupo 2
presenta muy bajo porcentaje de emisiones de gases, En el grupo 3 presenta alto
porcentaje de emisiones de gases, En el grupo 3 presenta muy alto porcentaje de emisiones
de gases. . . . En el añ o 2018: En el grupo 1 presenta bajo porcentaje de emisiones de gases,
En el grupo 2 presenta muy bajo porcentaje de emisiones de gases, En el grupo 3 presenta
alto porcentaje de emisiones de gases, En el grupo 3 presenta muy alto porcentaje de
emisiones de gases.
PAM
metodo particional
res=pam(scale(emisiones),4) # normalizacion Z
res
## Medoids:
## ID a1990 a1991 a1992 a1993 a1994
## UE27 1 -0.1238809 -0.1241630 -0.06470121 -0.07791954 -0.06483063
## Netherlands 21 0.4827788 0.5971890 0.77260857 0.82473993 0.87066405
## Hungary 19 -0.5877972 -0.6343876 -0.74977285 -0.69249621 -0.72166733
## Luxembourg 18 3.9264650 4.1335731 4.38826446 4.45458335 4.19465582
## a1995 a1996 a1997 a1998 a1999
## UE27 -0.01204485 -0.03687372 -0.04706348 -0.04601189 -0.05516575
## Netherlands 1.06530036 1.09521404 1.09145741 1.15540956 0.94784782
## Hungary -0.85518459 -0.82933515 -0.89489818 -0.91512527 -0.83250126
## Luxembourg 3.54787848 3.33674781 3.22315610 2.91919849 3.15447767
## a2000 a2001 a2002 a2003 a2004
## UE27 -0.0435587 -0.0573361 -0.07455773 -0.09157029 -0.09688378
## Netherlands 0.8760139 0.8027054 0.74091745 0.65852674 0.63281049
## Hungary -0.8663342 -0.8218174 -0.84343433 -0.81893710 -0.78365486
## Luxembourg 3.2717426 3.4306100 3.74652599 3.77256593 4.15251227
## a2005 a2006 a2007 a2008 a2009
a2010
## UE27 -0.09417771 -0.1302493 -0.1550273 -0.1455982 -0.1470812 -
0.1546553
## Netherlands 0.58704108 0.5146436 0.5117214 0.5687855 0.6980870
0.7718831
## Hungary -0.77539651 -0.8418552 -0.8907499 -0.9076075 -0.9154160 -
0.9105156
## Luxembourg 4.30078227 4.1171485 3.9144384 3.9502019 4.0275376
3.9416199
## a2011 a2012 a2013 a2014 a2015
a2016
## UE27 -0.1336976 -0.1201878 -0.1138304 -0.1246125 -0.0791696 -
0.08397137
## Netherlands 0.6677492 0.6992742 0.7379348 0.7361975 0.9147531
0.88589800
## Hungary -0.9351443 -0.9942806 -1.0205481 -0.9567289 -0.8923791 -
0.84811088
## Luxembourg 4.0028018 3.9498069 3.6229458 3.5194833 3.3845005
3.11953654
## a2017 a2018
## UE27 -0.1149705 -0.1346386
## Netherlands 0.7889640 0.7089306
## Hungary -0.7856315 -0.7454992
## Luxembourg 3.1216980 3.2396385
## 1 1 2 3 2
## 2 2 2 2 1
## 1 3 3 1 2
## 3 3 4 3 3
## 2 1 1 3 3
## 1 1 2 3 1
## 2 3 1 3 3
## Objective function:
## build swap
## 1.574956 1.574956
##
## [1] "medoids" "id.med" "clustering" "objective" "isolation"
## [6] "clusinfo" "silinfo" "diss" "call" "data"
Para el clusters 1 el país UE27 forma el centro

Para el clusters 2 el país Paises Bajos forma el centro
Para el clusters 3 el país Hungría forma el centro
Para el clusters 4 el país Luxenburgo forma el centro
Envase a ellos se van a formar el resto, ademas vemos sus coordenadas estandarizadas
plot(res)
Vemos 2 graficos: 1 grafico el clusters y el grafico de silueta
El grafico de clusters indica que estos 2 componentes explican el 96.64% de la variabilidad
de los puntos
El grafico de siluesta con n=35 tiene un indice se silueta de 0.41
El clusters 1 con n=11 tiene un indice se silueta de 0.42
Probando un pam con 10 clusters
asw<-numeric()
for(h in 2:10){
res<-pam(scale(emisiones),h)
asw[h-1]<-res$silinfo$avg.width
}
plot(2:10,asw,type="b",xlab="k",ylab="ASW")
El asw empezo en 2 clusters con 0.5, paso a 3 clusters y disminuyo a 0.35,

4 clusters a 0.40,
5 clusters a 0.33,
6 clusters a 0.34,
7 clusters a 0.32,
8 clusters a 0.33,
9 clusters a 0.32,
10 clusters a 0.29.
Por tanto, el que tiene mayor homogeneidad seria con 2 cluster.
Grafico de siluestas
par(mfrow=c(1,3))
for(h in 2:4){
res=pam(scale(emisiones),h)
plot(res,which.plots=2)
}
La silueta 1 con 2 clusters tiene un promedio de indice de 0.5

Nos quedamos con 2 clusters debido a que el promedio de silueta es mayor con 2 clusters
coeficientes promedio de silueta
pamk(scale(emisiones),criterion="asw")
## $pamobject
## Medoids:
## ID a1990 a1991 a1992 a1993 a1994
## Switzerland 34 -0.6948548 -0.5991997 -0.5404454 -0.5772631 -0.6221466
## Netherlands 21 0.4827788 0.5971890 0.7726086 0.8247399 0.8706641
## a1995 a1996 a1997 a1998 a1999
a2000
## Switzerland -0.6678202 -0.7161264 -0.7495551 -0.710628 -0.6569739 -
0.6485407
## Netherlands 1.0653004 1.0952140 1.0914574 1.155410 0.9478478
0.8760139
## a2001 a2002 a2003 a2004 a2005
a2006
## Switzerland -0.6545871 -0.7036386 -0.7507465 -0.7192701 -0.7094721 -
0.7306668
## Netherlands 0.8027054 0.7409175 0.6585267 0.6328105 0.5870411
0.5146436
## a2007 a2008 a2009 a2010 a2011
a2012
## Switzerland -0.8217759 -0.7647308 -0.6849156 -0.6666897 -0.7800256 -
0.7211266
## Netherlands 0.5117214 0.5687855 0.6980870 0.7718831 0.6677492
0.6992742
## a2013 a2014 a2015 a2016 a2017
a2018
## Switzerland -0.6633563 -0.7558732 -0.8020225 -0.8187209 -0.873109 -
0.8909421
## Netherlands 0.7379348 0.7361975 0.9147531 0.8858980 0.788964
0.7089306
## 1 1 2 1 2
## 2 2 2 2 2
## 1 1 1 1 2
## 1 1 2 1 1
## 2 1 2 1 1
## 1 1 2 1 2
## 2 1 2 1 1
## build swap
## 3.034255 2.589189
##
##
## $nc
## [1] 2
##
## $crit
## [1] 0.0000000 0.4988386 0.3548675 0.4060404 0.3231428 0.3339764 0.3160318
## [8] 0.3222885 0.3155829 0.2842144
Segun el promedio de silueta recomieda 2 cluster para agrupar
CH CALINSKI HARABATZ
pamk(scale(emisiones),criterion="ch")
## $pamobject
## Medoids:
## ID a1990 a1991 a1992 a1993
a1994
## UE28 2 -0.07035214 -0.05378722 -0.007611907 -0.001097458 -
0.005118208
## Belgium 3 0.46493588 0.54440711 0.696489502 0.709506809
0.830855770
## Italy 14 -0.56995429 -0.51122995 -0.426266799 -0.404413394 -
0.423105197
## Estonia 8 2.37412979 2.07508084 1.191263465 0.575068164
0.771143343
## Ireland 9 0.66120815 0.72034662 0.867757412 0.959178579
1.049801335
## Croatia 13 -0.99818470 -1.17980008 -1.206487280 -1.191839745 -
1.259079174
## Hungary 19 -0.58779722 -0.63438760 -0.749772852 -0.692496205 -
0.721667332
## Luxembourg 18 3.92646503 4.13357310 4.388264459 4.454583355
4.194655822
## Iceland 31 0.55415054 0.42124945 0.468132288 0.555862643
0.512389492
## a1995 a1996 a1997 a1998 a1999
## UE28 0.05821679 0.03105155 0.02560807 0.03067459 0.02006027
## Belgium 1.06530036 1.04993053 0.97033817 1.18097172 1.04814918
## Italy -0.36335308 -0.44442531 -0.41042121 -0.32719563 -0.25576846
## Estonia 0.71399214 0.77822947 0.84921893 0.69529071 0.47141638
## Ireland 1.34634694 1.32163160 1.52748669 1.76890136 1.80040935
## Croatia -1.39385720 -1.37273727 -1.35515131 -1.37524412 -1.25878203
## Hungary -0.85518459 -0.82933515 -0.89489818 -0.91512527 -0.83250126
## Luxembourg 3.54787848 3.33674781 3.22315610 2.91919849 3.15447767
## Iceland 0.76083324 0.71030421 0.94611432 1.18097172 1.37412859
## a2000 a2001 a2002 a2003 a2004
## UE28 0.004839856 -0.009556017 -0.02795915 -0.04610986 -0.07542218
## Belgium 1.045408882 0.922155614 0.88071320 0.79490802 0.74011847
## Italy -0.237152941 -0.248456435 -0.23765277 -0.22795157 -0.20419176
## Estonia 0.392028331 0.420464736 0.34482951 0.61306632 0.63281049
## Ireland 1.843985111 1.853867246 1.64958980 1.47681441 1.27665838
## Croatia -1.205124128 -1.108497941 -1.02982866 -0.97804860 -0.93388603
## Hungary -0.866334212 -0.821817439 -0.84343433 -0.81893710 -0.78365486
## Luxembourg 3.271742612 3.430610006 3.74652599 3.77256593 4.15251227
## Iceland 1.335800238 1.089385907 1.06710753 0.95401951 0.95473444
## a2005 a2006 a2007 a2008 a2009
a2010
## UE28 -0.07220291 -0.08577393 -0.1090446 -0.1217854 -0.1214701 -
0.1302727
## Belgium 0.69691508 0.60359430 0.5347127 0.6164111 0.5188089
0.5768224
## Italy -0.18207691 -0.24143772 -0.2929753 -0.3122877 -0.3775817 -
0.3740986
## Estonia 0.65296548 0.55911893 1.2474440 0.9736030 0.6212535
1.3570653
## Ireland 1.37813388 1.24848716 1.1554786 1.1402925 1.0310321
0.8694135
## Croatia -0.90724531 -0.90856827 -0.8677585 -0.8837947 -0.8641937 -
0.9105156
## Hungary -0.77539651 -0.84185521 -0.8907499 -0.9076075 -0.9154160 -
0.9105156
## Luxembourg 4.30078227 4.11714851 3.9144384 3.9502019 4.0275376
3.9416199
## Iceland 0.87271348 1.29296253 1.4543659 1.7356123 1.7225333
1.5521260
## a2011 a2012 a2013 a2014 a2015
a2016
## UE28 -0.1336976 -0.1201878 -0.1138304 -0.1533062 -0.1092885 -
0.1427513
## Belgium 0.4092180 0.4261202 0.4631718 0.3918735 0.5533267
0.4744383
## Italy -0.3663757 -0.3933418 -0.5259748 -0.5837112 -0.5309527 -
0.5248211
## Estonia 1.5467553 1.4914209 1.9743681 1.9700252 1.4267739
1.7088175
## Ireland 0.7453085 0.8631666 0.9302689 1.0231342 1.2159418
1.2679677
## Croatia -0.9092912 -0.9942806 -1.0205481 -1.0141162 -1.0128546 -
0.9656708
## Hungary -0.9351443 -0.9942806 -1.0205481 -0.9567289 -0.8923791 -
0.8481109
## Luxembourg 4.0028018 3.9498069 3.6229458 3.5194833 3.3845005
3.1195365
## Iceland 1.5467553 1.7099441 1.7820340 1.9700252 2.2399834
2.2672271
## a2017 a2018
## UE28 -0.1441296 -0.1637272
## Belgium 0.4390539 0.4762219
## Italy -0.5815173 -0.5418790
## Estonia 1.9553310 1.7852087
## Ireland 1.1680333 1.1743482
## Croatia -0.9022682 -0.9200307
## Hungary -0.7856315 -0.7454992
## Luxembourg 3.1216980 3.2396385
## Iceland 2.3635594 2.4251578
## 1 1 2 3 2
## 2 2 4 5 1
## 3 3 6 3 2
## 6 7 8 7 7
## 2 1 1 7 7

## 3 3 2 7 1
## 9 7 1 7 6
## build swap
## 0.9879691 0.9744464
##
##
## $nc
## [1] 9
##
## $crit
## [1] 0.00000 38.85648 30.03803 78.94525 71.80541 81.01012 73.40502
77.03702
## [9] 82.89823 80.51983
Segun CALINSKI HARABATZ recomieda 9 cluster para agrupar

res=pam(scale(emisiones),2)
plotcluster(emisiones,res$clustering)
clusplot(emisiones,res$clustering, color = TRUE,
shade = TRUE, labels =2,lines=0,
main ="Gráfico de Conglomerados")
En este caso, se obtienen 4 clusters. Uno de ellos só lo tiene una observació n. Esto es
Luxemburgo. Esto puede explicarse por el hecho de que está demasiado lejos de los demá s
y, por tanto, no consigue unirse a ellos. Los otros 3 grupos está n bien diferenciados. Los que
emiten poco y reducen sus emisiones aparecen en rojo. Los que no reducen sus emisiones
pero no contaminan mucho aparecen en negro. Por ú ltimo, los que producen gases de
efecto invernadero y no los reducen aparecen en verde.
#PERFILAMIENTO
DATANUEVA= cbind(emisiones,clu=res$clustering)
attach(DATANUEVA)
par(mfrow=c(2,4))
boxplot(a1990~clu)
boxplot(a1991~clu)
boxplot(a1992~clu)
boxplot(a1993~clu)
boxplot(a2015~clu)
boxplot(a2016~clu)
boxplot(a2017~clu)
boxplot(a2018~clu)
En el añ o 1991:
En el grupo 1 presenta bajo porcentaje de emisiones de gases, En el grupo 2 presenta alto
porcentaje de emisiones de gases, En el grupo 3 presenta my bajo porcentaje de emisiones
de gases, En el grupo 3 presenta muy alto porcentaje de emisiones de gases. . . . En el añ o
2018: En el grupo 1 presenta bajo porcentaje de emisiones de gases, En el grupo 2 presenta
alto porcentaje de emisiones de gases, En el grupo 3 presenta my bajo porcentaje de
emisiones de gases, En el grupo 3 presenta muy alto porcentaje de emisiones de gases.
library(factoextra)
## Warning: package 'factoextra' was built under R version 4.2.1
## Loading required package: ggplot2
##
## Attaching package: 'ggplot2'
## The following object is masked from 'package:kernlab':
##
## alpha
## Welcome! Want to learn more? See two factoextra-related books at

https://goo.gl/ve3WBa
Cluster Jerárquico Aglomerativo
Usando el enlace de Ward

res.hc=hclust(dist(scale(emisiones)),method="ward.D") #la matriz de
disimilaridades = distancias #puedes usar una base de datos con variables
cualis y cuantis esto no se podria hacer en el de k medias
plot(res.hc)
Este es el dedrograma, podemos visualizar muy claramente 2 grupos, 1 un grupo a la

izquierda y otro a la derecha.
Cortando el dendrograma considerando cuatro conglomerados

(res.hc4=cutree(res.hc, k=4))
## 1 1 2 1 2
## 2 2 2 2 1
## 1 1 3 1 2
## 3 3 4 3 3
## 2 1 1 3 3
## 1 1 2 3 2
## 2 3 2 3 3
fviz_dend(res.hc, cex = 0.6, k = 4, palette = "jco")
## Warning: `guides(<scale> = FALSE)` is deprecated. Please use

`guides(<scale> =
## "none")` instead.
Le hemos dicho
4 grupos y a pintado de 4 colores (azul, amarillo, plomo y rojo) diferentes la jerarquizacion,
Si se corta a la altura de 15 se tendría 5 grupos
Si se corta a la altura de 5 se tendría 7 grupos
Cortando el dendrograma considerando una altura de 4

(res.hc4=cutree(res.hc, h=4))
## 1 1 2 3 2
## 4 4 5 6 1
## 3 3 7 3 4
## 7 7 8 9 9

## 2 1 1 9 9
## 3 3 2 9 4
## 6 9 4 9 7
fviz_dend(res.hc, cex = 0.6, h = 4, palette = "jco")

`guides(<scale> =
Para una altura de 4 ha encontrado 10 grupos
Clustering jerarquico aglomerativo usando Agnes

library(cluster)
Usando el enlace simple

res.hc.s=hclust(dist(scale(emisiones)),method="single")
plot(res.hc.s)
Con el enlace
simple crea muchos grupos
Usando el enlace completo

res.hc.s=hclust(dist(scale(emisiones)),method="complete")
plot(res.hc.s)
Con el enlace completo encuentra 3 grupos
res.hc.s=hclust(dist(scale(emisiones)),method="average")
plot(res.hc.s)
Con el enlace promedio encuentra 2 grupos
res.hc.s=hclust(dist(scale(emisiones)),method="centroid")
plot(res.hc.s)
Con el metodo centroide encuentra 2 grupos
Notar que en aspectos de distancias y jerarquías , mejor es el metodo ward.d, se logra
mostrar con gran precision los grupos, tiene una muy buena jerarquizacion.
AGNES aglomerative nesting

Tecnica aglomerativo, ventaja nos da un coeficeinte de aglomeracion
res.agnes.single = agnes(scale(emisiones), method="single")
res.agnes.single
## Call: agnes(x = scale(emisiones), method = "single")

## Agglomerative coefficient: 0.8805756
## Order of objects:
## [1] UE27 UE28 Austria Spain Italy
## [6] France Slovenia Slovakia Greece Hungary
## [11] Romania Sweden Liechtenstein Switzerland Malta
## [16] Portugal Cyprus Norway Poland Bulgaria
## [21] Germany Belgium Netherlands Czechia Finland

## [26] Denmark Croatia Latvia Lithuania Turkey
## [31] United Kingdom Ireland Estonia Iceland

Luxembourg
## Height (summary):
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.2637 0.9191 1.3031 1.7481 1.6511 13.8463
##
## [1] "order" "height" "ac" "merge" "diss" "call"
## [7] "method" "order.lab" "data"
0.8805756 este valor tiende a 1 el dendrogrma ayuda a diferenciar mejor el grupo

res.agnes.single
## Call: agnes(x = scale(emisiones), method = "single")

## [1] UE27 UE28 Austria Spain Italy
## [6] France Slovenia Slovakia Greece Hungary
## [11] Romania Sweden Liechtenstein Switzerland Malta
## [16] Portugal Cyprus Norway Poland Bulgaria
## [21] Germany Belgium Netherlands Czechia Finland
## [26] Denmark Croatia Latvia Lithuania Turkey
## [31] United Kingdom Ireland Estonia Iceland

Luxembourg
## 0.2637 0.9191 1.3031 1.7481 1.6511 13.8463
##
plot(res.agnes.single)
Tenemos 2 graficos: grafico de banner y el grafico del dendrograma con el metodo simple
El coeficiente aglomeracion es 0.88 con el metodo simple
res.agnes.ward=agnes(scale(emisiones),method="ward")
res.agnes.ward
## Call: agnes(x = scale(emisiones), method = "ward")

## [1] UE27 UE28 Austria Greece Poland
## [6] Bulgaria Slovakia Spain Italy France
## [11] Slovenia Croatia Latvia Turkey Lithuania
## [16] Hungary Romania Sweden Liechtenstein Malta
## [21] Switzerland Portugal Belgium Netherlands Finland
## [26] Czechia Ireland Denmark United Kingdom Germany
## [31] Cyprus Norway Estonia Iceland

Luxembourg
## 0.2637 1.2231 1.7617 3.9932 3.4618 32.9763
##
plot(res.agnes.ward)
El coeficiente aglomeracion es 0.94 con el metodo ward, ya que tiende a uno es una manera
eficiente de agrupar en el dendrograma.
Usando matriz de disimilaridad
diss.emisiones=daisy(scale(emisiones))
res.agnes.ward2 =agnes(diss.emisiones,method="ward")
plot(res.agnes.ward2)
Usando matriz de disimilaridad daysi, con el metodo ward tenemos el coeficiente
aglomeracion es 0.94 con el metodo ward, ya que tiende a uno es una manera eficiente de
agrupar en el dendrograma.
Determinando el número optimo de conglomerados
Indice de Silueta
par(mfrow=c(1,3))
for(h in 2:4){
conglomerados=cutree(res.agnes.ward2,k=h)
plot(silhouette(conglomerados,diss.emisiones))
}

De este grafico de indice de silueta aceptamos el 1er y 2do grafico de silueta ya que tienen
el coeficiente de 0.52 con 2 y3 clusters reséctivamente.
par(mfrow=c(1,1))
fviz_dend(res.agnes.ward2, cex = 0.7,
k = 2,
palette = "jco"
)
`guides(<scale> =
Nuevamente se uso 2 conglomerados por que es el que esta maximizando el indice de la

silueta
Le hemos dicho 2 grupos y a pintado de 2 colores (azul y amarillo) diferentes la
jerarquizacion,
Conclusión:
Hemos probado diferentes modelos y se recomienda utilizar 2 y 4 clusters, dependiendo de
la informació n que queramos introducir.
Existen grandes diferencias entre los países de la UE en cuanto a las emisiones de gases de
efecto invernadero. Esto se debe a las toneladas de estos gases emitidas, pero también a la
reducció n de estas emisiones en las ú ltimas décadas.
Las naciones má s avanzadas en este sentido son : Croacia Letonia Lituania Hungría Malta
Portugal Rumanía Suecia Liechtenstein Suiza y Turquía (Clusters 2)
También podemos distinguir los países que está n haciendo progresos significativos, como
UE27, UE28, Bulgaria, Grecia, Españ a, Francia, Italia, Austria, Polonia, Eslovenia,
Eslovaquia, Reino Unido y Noruega (Clusters 1)
Por ú ltimo, los países que emiten demasiado pero que no tienen mucho margen de
reducció n: Bélgica Chequia Dinamarca Alemania Estonia Irlanda Chipre Países Bajos
Finlandia y Islandia (Clusters 3)
El país má s destacado es Luxemburgo. Es un país bastante rico y social y econó micamente
avanzado, pero emiten mucho, e y no está reduciendo sus emisiones. Una posible
explicació n de este fenó meno en Luxemburgo es que hay muchos trabajadores
transfronterizos. Contaminan y al final del día regresan a sus países de origen. Así que no
cuentan como habitantes pero contribuyen a las emisiones de gases.

Exposición

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Exposición

Uploaded by

Copyright:

Available Formats

Análisis de Cluster

Dayana Gianina Arque Paccori

Análisis cluster con r, aplicado a las emisiones de gases de efecto invernadero

• Nú mero de Clusters ó ptimo

• Aná lisis Cluster con Kmeans

• Aná lisis Cluster con algoritmo PAM

• Aná lisis Cluster Jerá rquico: método aglomerativo

Definición del problema

## Warning: package 'fpc' was built under R version 4.2.1

## Warning: package 'mclust' was built under R version 4.2.1

## Package 'mclust' version 5.4.10

## Warning: package 'flexmix' was built under R version 4.2.1

## Loading required package: lattice

## Warning: package 'prabclus' was built under R version 4.2.1

## Loading required package: MASS

## The following object is masked from 'package:fpc':

## Warning: package 'trimcluster' was built under R version 4.2.1

## Warning: package 'plyr' was built under R version 4.2.1

## Loading required package: stats4

## The following object is masked from 'package:plyr':

## The following object is masked from 'package:mclust':

## Warning: package 'robustbase' was built under R version 4.2.1

## The following object is masked from 'package:modeltools':

## The following object is masked from 'package:flexmix':

## Warning: package 'readxl' was built under R version 4.2.1

emisiones <- read_excel("emisiones.xlsx")

## K-means clustering with 4 clusters of sizes 11, 1, 16, 7

## Denmark Germany Estonia Ireland Greece

## Spain France Croatia Italy Cyprus

## Latvia Lithuania Luxembourg Hungary Malta

## Netherlands Austria Poland Portugal Romania

## Slovenia Slovakia Finland Sweden United Kingdom

## Iceland Liechtenstein Norway Switzerland Turkey

Determinar numero de conglomerados

## K-means clustering with 10 clusters of sizes 3, 6, 1, 3, 1, 8, 6, 5, 1, 1

## Denmark Germany Estonia Ireland Greece

## Spain France Croatia Italy Cyprus

## Latvia Lithuania Luxembourg Hungary Malta

## Netherlands Austria Poland Portugal Romania

## Slovenia Slovakia Finland Sweden United Kingdom

## Iceland Liechtenstein Norway Switzerland Turkey

## K-means clustering with 2 clusters of sizes 23, 12

## Denmark Germany Estonia Ireland Greece

## Spain France Croatia Italy Cyprus

## Latvia Lithuania Luxembourg Hungary Malta

## Netherlands Austria Poland Portugal Romania

## Slovenia Slovakia Finland Sweden United Kingdom

## Iceland Liechtenstein Norway Switzerland Turkey

clusplot(emisiones,res$cluster, color = TRUE,

## UE27 UE28 Belgium Bulgaria Czechia

## Denmark Germany Estonia Ireland Greece

## Spain France Croatia Italy Cyprus

## Latvia Lithuania Luxembourg Hungary Malta

## Netherlands Austria Poland Portugal Romania

## Slovenia Slovakia Finland Sweden United Kingdom

## Iceland Liechtenstein Norway Switzerland Turkey

Perfilado y caracterización de clusters

Adicionar los cluster a la base de datos

## Group.1 a1990 a1991 a1992 a1993 a1994 a1995

## Denmark Germany Estonia Ireland Greece

## Spain France Croatia Italy Cyprus

## Latvia Lithuania Luxembourg Hungary Malta

## Netherlands Austria Poland Portugal Romania

## Slovenia Slovakia Finland Sweden United Kingdom