You are on page 1of 29

Análise de Agrupamentos

Valério De Patta Pillar
Departamento de Ecologia Universidade Federal do Rio Grande do Sul Porto Alegre vpillar@ufrgs.br http://ecoqua.ecologia.ufrgs.br

Análise de dados com MULTIV

Disponível em http://ecoqua.ecologia.ufrgs.br

78 9.43 8.68 2.48 7.73 0 7 15.36 10.00 0 5 4.34 4.47 1 2 3 4 5 6 4 30 2 3 0 7 1 5 7 6 4 3 2 5 1 0 4 8 20 20 Spe cie s A 40 .23 11.24 6.Análise de Agrupamentos (método de ligação simples) Sp.83 0 3 6.C 1 2 3 4 5 6 7 26 28 29 29 30 35 39 28 30 31 33 27 38 36 18 14 13 13 19 15 15 Species B 40 6 7 1 0 2 5.56 1.54 0 6 13.00 0 4 7.A Sp.24 2.63 13.56 11.B Sp.27 9.28 8.06 12.

C.C. 1998. p. M. p 1 75 -1 82. Data Analysis in Population and Community Ecology. pois o número de grupos é definido a posteriori – Alguns algoritmos aglomerativos: Ligação simples. a Primer on Classif ication and Ordination. 135 -174. Numerical Ecol ogy. L. Backhuys. New York. Wiley. Th e Int erpretation of Ecological Data. . WPGMA). N. Orlóci.Análise de Agrupamentos • Agrupamento hierárquico – Algoritmos podem ser aglomerativos ou divisivos – Processo de agrupamento representado por um dendrograma – Não produz uma classificação mas n-1 possibilidades de classificação. Honolul u / New Mexico St ate University. University of Hawaii. Leiden. Orlóci. Pielou. Elsevier. 1 9 87. ligação média (UPGMA. Ke nkel. Pillar. . Refe rências : Legendre. N.. J. V. Las Cruces. Intro duction t o th e Exploration of Multivariate Biological Data . E. Ho w shar p are classi f ication s? Ecology 80 : 2508 -25 1 6 Podani. ligação completa. P. L. 13 -40 e 63 -81. 1999. Yo rk. J. D. p. 1984. 2000.. soma de quadrados (Ward) • Agrupamento não-hierárquico – Número de grupos é especificado a priori e o resultado é uma classificação. Legendre.

Algoritmo de agrupamento aglomerativo hierárquico Baseado em uma matriz de semelhança comparando n objetos (unidades amostrais ou variáveis) aos pares: (1) São agrupados os dois objetos (ou dois grupos de objetos) que forem mais semelhantes na matriz de semelhança. (3) Repete-se o processo até que todos os objetos formem um único grupo (n-1 passos de agrupamentos). . (2) A matriz de semelhança é redefinida de acordo com o grupo que foi formado.

Alguns critérios para a redefinição da matriz de semelhança após cada passo aglomerativo (Extraído de Podani 1994:82) .

.. para j=1.. . n objetos.. . desde que j pertença ao grupo P e k ao grupo Q ] onde: • djk é um elemento da matriz de dissimilaridades • INF é valor mínimo no conjunto entre [] • Quando a matriz contém similaridades.. .. SUP (máximo) é usado ao invés de INF. a dissimilaridade entre os grupos P e Q é: – dPQ = INF [ djk. n-1 e k=j+1.Ligação Simples • Quando a matriz contém dissimilaridades.

Ligação Simples .

para j=1.. a dissimilaridade entre os grupos P e Q é – dPQ = SUP [ djk.Ligação Completa • Quando a matriz contém dissimilaridades. n-1 and k=j+1... INF é usado aon invés de SUP. . .. n objetos.. . desde que j pertença ao grupo P e k ao grupo Q ] onde: – djk é um elemento da matrizx de dissimilaridades – SUP é o valor máximo no conjunto entre [] • Quando a matriz contém similaridades..

Ligação Completa .

Ligação Média (UPGMA) Rohlf (1963) • • UPGMA: Unweighted Pair Group Method using Arithmetic Averages A distância entre dois objetos ou grupos M e N é dada pela média aritmética das distâncias entre os elementos dos dois grupos. .

e. .. Orlóci 1967) O critério de agrupamento minimiza o aumento na soma de quadrados dentro do grupo formado a cada passo de agrupamento..QP .. n objetos .Soma de quadrados progressiva (Ward 1963.. n-1 e i= h+1. desde que h e i pertençam ao grupo Q  . n-1 and i= h+1. . .... desde que h e i pertençam ao grupo P QQ = 1 nq d   h i 2 hi para h=1.. QPQ = QP+Q . . QP+Q = 1 n p  nq  d h i 2 hi para h=1. i. .. n objetos. desde que h e i pertençam ao grupo P ou Q QP = 1 np   d 2 hi h i para h=1. n objetos .. ........ n-1 and i= h+1.QQ Onde QP+Q é a soma de quadrados total no grupo P+Q e QP e QQ são as somas de quadrados dentro dos grupos P e Q..

Soma de quadrados progressiva .

.

•Métodos de agrupamento revelam grupos mesmo quando não existe estrutura clara de grupos nos dados. Os grupos revelados são reais? Como escolher um nível de partição adequado? •Seria estável a classificação se o levantamento fosse repetido muitas vezes? •O tamanho da amostra é suficiente para responder essas questões? .Nitidez de grupos e suficiência amostral em análise de agrupamentos •Análise de agrupamentos é uma ferramenta para classificação de quaisquer objetos.

Quantos grupos? (onde “cortar” o dendrograma) Análise de agrupamentos (soma de quadrados) com dados simulados: 50 unidades descritas por quatro variáveis aleatórias. . Análise de agrupamentos (soma de quadrados) com dados simulados: 50 unidades descritas por quatro variáveis aleatórias definindo 2 grupos nítidos.

O método de agrupamentos é variância mínima e a análise é baseada em distâncias Euclidianas..São nítidos os grupos? Análise de agrupamentos de 20 comunidades em vegetação de campo (quadros 0.1 x 1 m) (Cadenazzi 1996). Qual a probabilidade de que uma classificação (e. tipos de comunidades) obtida de um levantamento se mantenha ao se repetir o levantamento no mesmo universo amostral? .g.

.D. How sharp are classifications? Ecology 80: 2508-2516. e grupos são definidos a um dado nível de partição. Análise de agrupamentos é realizada com cada amostra bootstrap e os grupos encontrados são comparados com os grupos originais. Quanto mais nítidos forem os grupos na amostra. mais instáveis serão os grupos nas amostras bootstrap. mais estáveis serão os grupos encontrados nas amostras bootstrap. Amostras bootstrap são tomadas reamostrando a amostra com reposição. 1999. Quanto mais difusos forem os grupos na amostra.Avaliação da nitidez de grupos por auto-reamostragem (bootstrap) Análise de agrupamentos é realizada com uma amostra. V. Pillar.

. Abstracta Botanica 22: 37-48. Sampling sufficiency in ecological surveys.D. o método gera as probabilidades necessárias para avaliar a significância das partições com k grupos usando tamanhos crescentes de amostra nz ≤ n. V. Pillar.Avaliação da nitidez de grupos por bootstrap combinada com amostragem em processo Dada uma amostra de n unidades amostrais e p variáveis submetida a análise de agrupamentos. 1998.

Avaliação de nitidez de grupos por autoreamostragem (bootstrap) .

involv ing ( n + nz )( n + nz –1 )/ 2 s quared dissimilariti es of n + nz sampli ng units . . Sz requires th e comp ut ati on of sum of squares Qj f or all k2 pair-wise cont rasts bet ween th e k group s in th e boot st rap sample and th e k group s in th e ref erence sample. Sz is t he sum of squares bet ween nearest neighbor group s mapped one-t o-one in t he ref erence sample t o th e boot st rap sample. The p aramete r evaluat ed in each boot st rap sample of size nz is: * Gz  1 Sz Tz n n z 1 h 1 n nz i h 1 where 1 Tz  n  nz   d2 hi is t he t ota l sum of squares. n is t he size of th e ref erence sample and nz is t he size of th e boot st rap sample.Evaluation of group sharpness by bootstrap resampling * The Gz paramete r The n + nz sampling units in t he r efe rence sample and in th e boots t rap samp le are point s in a space defi ned by p variables.

Evaluation of group sharpness by bootstrap resampling .

8+28. .5 ( 12 ) Tot al s um of s quares comput ed f ro m dist ance matri x of s t ep ( 10 ): T° = ( 34+ .3667 Nearest neighbor gr oups: 1 .6 One-t o-o ne nearest neighb or sum of squares bet ween partit ions: S = 32 .6 = 61 .4: 6 . sampling unit s are columns): V1 V2 V3 1 17 5 5 2 14 9 8 3 27 8 0 4 21 5 0 5 16 0 10 ( 8 ) Tot al s um of s quares comput ed f ro m dist ance matri x of st ep ( 5 ) : T = (3 4 +.9068.8 Exclusive nearest neighb or sum of s quares bet ween partit ions: S° = 6 . ( 6 ) Boot str ap sample part it ion with 2 groups generat ed b y clust er analysis: Sampling units: Groups: 1 3 5 4 4 3 4 3 5 4 ( 7 ) Su m of s quares fo r cont rasts bet we en groups of s ampling un its in th e ref erence ( rows) a nd bootst rap sample ( columns) .6 4 32...4.8 206 3 78.8 206 ––> 4 32.2 28.3839 and averag e o * = 0 .3 . matr ix is rearranged: 1 2 3 78.5 2 ..6 Since ( 13 ) Repeat st eps ( 4 ) t o ( 12 ) up to B ti mes A run wit h B = 10000 * Gz it eratio ns gave a P( Gz  Gz ) = 0 .2 28.+285+150 )/ 10 = 495 .S/ T = 0 .3: 1 .+51+. +51 + …+15 0 ) / 10 = 4 1 1..8509 ( 9 ) Null boot stra p sample ( th e unit s in each gr oup are ta ken at random f ro m t he nearest gro up in t he refe rence sample): Sampling units: Groups: 3 3 1 4 3 3 4 3 5 4 ( 2 ) Di st ance matr ix ( squared Euclidean) of s ampling un its : 0 34 0 134 234 0 41 129 45 0 51 89 285 150 0 ( 3 ) Ref erence part it ion with 2 groups generat ed by c lust er analy sis: Sampling units: Groups: 1 1 2 1 3 2 4 2 5 1 ( 10 ) Distan ce m atri x of s ampling unit s ( refe rence plus null b oot strap sample): 0 34 0 134 234 0 41 129 45 0 51 89 285 150 0 134 234 0 45 285 0 0 34 134 41 51 134 0 134 234 0 45 285 0 134 0 41 129 45 0 150 45 41 45 0 51 89 285 150 0 285 51 285 150 0 ( 4 ) Get a boot st rap sample ( in th is example sample size nz = n): Sampling units: 1 5 4 4 5 ( 5 ) Di st ance matr ix ( squared Euclidean) of s ampling un its ( ref erence plus boot str ap): 0 34 0 134 234 0 41 129 45 0 51 89 285 150 0 0 34 134 41 51 0 51 89 285 150 0 51 0 41 129 45 0 150 41 150 0 41 129 45 0 150 41 150 0 0 51 89 285 150 0 51 0 150 150 0 ( 11 ) Sum of squares f or cont rasts bet ween nearest neighb or gro ups of sampling unit s in t he ref erence and null boot stra p sample: 1 . .5+1.Algo rith m illustrat ed by an example ( Pillar 1999 ): ( 1 ) Comp let e dat a set (v ariables are rows . 2 ..5 = 8 o Gz = 1 – S° / T° = 0 .9839 o * Gz is larg er t han Gz t his it erati on will add z ero to t he cumulati ve o * f requency F( Gz  Gz ) . * Gz = 1 .

Evaluation of sampling suf f iciency and signif icance for group part iti on levels in dif fe rent data set s by probabilit ies P( Gz  Gz ) . part it ion level 3 groups. part it ion levels 3 and 4 group s. ( BC) Art if icial dat a set of 3 well defined groups. The groups were defi ned by sum of squ ares clust ering. Probabilit ies we re generat ed in 10 00 0 boot st rap it erat ions at each sample size . Dat a set s and part it ion levels are: ( A) Art ificial dat a of 60 un it s described by random variables. ( From Pillar 1 9 98 ) o * .

Data set s and p art it ion levels are: (D-F) EEA grassland dat a set (Pillar et al. part it ion levels 2 . 1 9 92 ) . 3 an d 4 groups. and ( G-J) Sant a Catarina grassland data s et ( Pillar and Tcacenco 1 98 6 ).Evaluation of s ampling suf f iciency and signif icance f or group pa rt iti on levels in dif fe rent data s et s by probabilit ies P( Gz  Gz ) . Th e groups w ere defi ned by sum o f squares clust ering. 4 a nd 5 groups. ( From Pillar 19 9 8) o * . p art it ion levels 2 . Probabilit ies we re generat ed in 10 00 0 boot st rap it erat ions at each sample size . 3.

part it ion level. St andard deviat ions of th e means b ased on 1 0 dat a sets in each case are indicat ed. ( From Pillar 1 9 99 ) o * . The groups have equal size s (2 0 and 2 0 sampling unit s). Random dat a set s were def ined with 2 groups separat ed by exp ect ed dif f erence d betw een cent roids ranging f rom d = 0 ( a single group) to d = 0. The parti t ion level aft er clust er analysis is indicat ed on each line. distr ibut ion t ype and da t a set replicat e.3 2 (c learly two g roup s).Probability curve of P( Gz  Gz ) f or increasing separat ion betw een groups in simulat ed dat a. The numb er of it erati ons is 1 0 00 f or each combinat ion of cent roid dif f erence. The dat a conta in 4 0 variables with normal ( solid line) and unif orm ( dott ed line) distr ibut ion wi t hin each group.

Sample size at 1 sampling step(s): 245 Probabilities P(GNull<=G*) generated in 1000 iterations of bootstrap resampling: 2 groups: 0.141 4 groups: 0. 9 variables Data type: (5) mixed Type: 3 3 3 3 3 2 3 3 3 Resemblance measure: (5)Gower index.Dimensions: 245 sampling units.281 3 groups: 0.106 5 groups: 0. (1)between sampling units Clustering criterion: (4)average linkage (UPGMA) SAMPLER Bootstrap resampling Sample attribute: sharpness of group structure (G*) Considering partitions with 2 to 5 groups.027 .

Porto Alegre (Klebe 2003). Description used 6 structural variables and the analysis was based on Gower similarities. Morro Santana. .Cluster analysis (UPGMA) of 245 vegetation patches delimited on grassland.

Porto Alegre (Klebe 2003). Morro Santana. Classification based on 9 variables describing vegetation structure. .Types of grassland vegetation patches.