Welcome to Scribd, the world's digital library. Read, publish, and share books and documents. See more
Download
Standard view
Full view
of .
Save to My Library
Look up keyword
Like this
0Activity
0 of .
Results for:
No results containing your search query
P. 1
2 Cluster Iris

2 Cluster Iris

Ratings: (0)|Views: 31 |Likes:
Published by aletheia_aiehtela

More info:

Published by: aletheia_aiehtela on Feb 05, 2014
Copyright:Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as PDF, TXT or read online from Scribd
See more
See less

02/05/2014

pdf

text

original

 
Análisis multivariante en R: aplicación en ecología
Rosana Ferrero5 de febrero de 2014
Índice
1.1. Análisis jerárquico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21.2. Análisis no jerárquico: k-medias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71.3. Análisis no jerárquico: k-medoides . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91.4. Análisis no jerárquico: método de densidades . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
 
1. Análisis cluster con R: datos iris (ambos métodos).
1.1. Análisis jerárquico
Con los datos iris vamos a aplicar el método jerárquico de clasificación.
. Vamos a crear una muestra aleatoria del conjunto de datos,quitándole la variable Species, para clasificarlo según los casos o flores y luego ver si esta clasificación secorresponde o no con la especie.
# 1) miramos los datos que tenemosstr(iris)##
 '
data.frame
'
: 150 obs. of 5 variables:## $ Sepal.Length: num 5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ...## $ Sepal.Width : num 3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 ...## $ Petal.Length: num 1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ...## $ Petal.Width : num 0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 ...## $ Species : Factor w/ 3 levels "setosa","versicolor",..: 1 1 1 1 1 1 1 1 1 1 ...# resumimos las variablessummary(iris)## Sepal.Length Sepal.Width Petal.Length Petal.Width## Min. :4.30 Min. :2.00 Min. :1.00 Min. :0.1## 1st Qu.:5.10 1st Qu.:2.80 1st Qu.:1.60 1st Qu.:0.3## Median :5.80 Median :3.00 Median :4.35 Median :1.3## Mean :5.84 Mean :3.06 Mean :3.76 Mean :1.2## 3rd Qu.:6.40 3rd Qu.:3.30 3rd Qu.:5.10 3rd Qu.:1.8## Max. :7.90 Max. :4.40 Max. :6.90 Max. :2.5## Species## setosa :50## versicolor:50## virginica :50####### miramos la dimensión de los datosdim(iris) #150 filas o casos, y 5 columnas o variables## [1] 150 5# 2) tomamos una muestra de 40 casos para realizar el dendrograma (y# que no sea muy extenso) obtenemos el vector de números aleatorios# para escoger la muestraidx <- sample(1:dim(iris)[1], 40) # nos quedamos con aquellos números (filas) que seleccionamos, y# todas las variablesirisSample <- iris[idx, ]# borramos la variable SpeciesirisSample$Species <- NULL# el conjunto de datos queda:head(irisSample)
2
 
## Sepal.Length Sepal.Width Petal.Length Petal.Width## 88 6.3 2.3 4.4 1.3## 6 5.4 3.9 1.7 0.4## 48 4.6 3.2 1.4 0.2## 33 5.2 4.1 1.5 0.1## 22 5.1 3.7 1.5 0.4## 3 4.7 3.2 1.3 0.2# 3) Escalar o no?summary(irisSample)## Sepal.Length Sepal.Width Petal.Length Petal.Width## Min. :4.30 Min. :2.30 Min. :1.10 Min. :0.10## 1st Qu.:5.10 1st Qu.:2.80 1st Qu.:1.68 1st Qu.:0.30## Median :5.90 Median :3.00 Median :4.50 Median :1.40## Mean :5.90 Mean :3.06 Mean :3.84 Mean :1.22## 3rd Qu.:6.53 3rd Qu.:3.20 3rd Qu.:5.10 3rd Qu.:1.80## Max. :7.70 Max. :4.10 Max. :6.70 Max. :2.50boxplot(irisSample, las = 2)# vemos que las variables tienen un rango similar de valores, por lo# que no será necesario escalar (centrar o tipificar) los datos.
   p   a    l .    L   e   n   g    t    h   e   p   a    l .    W    i    d    t    h   e    t   a    l .    L   e   n   g    t    h    P   e    t   a    l .    W    i    d    t    h
02468
# 4) Calculamos el cluster con el método average y construyendo la# matriz de distancias con los datos iniciales (por defecto usa la# distancia euclídea).hc <- hclust(dist(irisSample), method = "ave") # graficamos el resultado, agregándole el nombre de las especies a# los casosplot(hc, hang = -1, labels = iris$Species[idx])# 5) Como conocemos que pueden pertenecer a 3 especies distintas,# Cortamos el dendrograma en 3 grupos o clustersrect.hclust(hc, k = 3)
3

You're Reading a Free Preview

Download
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->