Professional Documents
Culture Documents
Tobbv Ea4 Klaszterezes
Tobbv Ea4 Klaszterezes
4. előadás
Klaszterelemzés
• Nem irányított szegmentálás
• Nincs ‘eredményváltozó’
• A változók egyenrangúak
• Osztályozó nélküli osztályozás
• Nem irányított tanulás
Mi a cél?
• Nem jól definiált (saját meglátás)
• „Clustering is the classification of objects into
different groups, or more precisely, the
partitioning of a data set into subsets (clusters),
so that the data in each subset (ideally) share
some common trait - often proximity according to
some defined distance measure.”
• Heterogén sokaság homogén részsokaságokra
történő felbontása (saját definíció)
Előnyök
Change in Cluster
Centers Number of Cases in each Cluster
Iteration 1 2 Cluster 1 9,000
1 4,963 5,129 2 9,000
2 ,338 ,341 Valid 18,000
3 ,490 ,454 Missing 4,000
4 ,000 ,000
a. Convergence achieved due to no or small change in
cluster centers. The maximum absolute coordinate
change for any center is ,000. The current iteration is 4.
The minimum distance between initial centers is 4,123.
Cluster
1 2 3 4
Zscore: pedagógusokra Number of Cases in each Cluster
jutó személyi kiadás
22,29278 -,22636 ,39739 -,04147 Cluster 1 1,000
járulékokkal 2001-ben
(eFt) 2 1,000
Zscore: nem 3 33,000
pedagógusokra jutó 4 405,000
személyi kiadás 22,87362 -,09067 ,26553 -,05386 Valid 440,000
járulékokkal 2001-ben
(eFt) Missing 384,000
Zscore: Közmű és
energiakiadások 22,70259 -,11251 ,08275 -,06292
2001-ben (eFt)
Zscore: Felújítási és
beruházási kiadás 7,82214 14,56953 1,43848 -,19479
2001-ben (eFt)
Extrém értékek nélkül
Final Cluster Centers
Cluster
1 2 3 4
Zscore: pedagógusokra
jutó személyi kiadás
-,59133 ,71940 -,49197 1,19681 Number of Cases in each Cluster
járulékokkal 2001-ben
(eFt) Cluster 1 1,000
Zscore: nem 2 17,000
pedagógusokra jutó
3 280,000
személyi kiadás -,09067 ,23439 -,10970 ,09704
járulékokkal 2001-ben 4 141,000
(eFt) Valid 439,000
Zscore: Közmű és Missing 385,000
energiakiadások -,11251 ,01215 -,08075 -,00247
2001-ben (eFt)
Zscore: Felújítási és
beruházási kiadás 14,56953 2,02478 -,23188 -,00649
2001-ben (eFt)
ANOVA
ANOVA
Cluster Error
Mean Square df Mean Square df F Sig.
Zscore: pedagógusokra
jutó személyi kiadás
91,580 3 ,428 435 214,196 ,000
járulékokkal 2001-ben
(eFt)
Zscore: nem
pedagógusokra jutó
személyi kiadás 1,749 3 ,018 435 95,024 ,000
járulékokkal 2001-ben
(eFt)
Zscore: Közmű és
energiakiadások ,217 3 ,010 435 22,002 ,000
2001-ben (eFt)
Zscore: Felújítási és
beruházási kiadás 98,794 3 ,096 435 1033,571 ,000
2001-ben (eFt)
The F tests should be used only for descriptive purposes because the clusters have been chosen to maximize
the differences among cases in different clusters. The observed significance levels are not corrected for this and
thus cannot be interpreted as tests of the hypothesis that the cluster means are equal.
Hány klaszter legyen?
Final Cluster Centers
Cluster
Number of Cases in each Cluster 1 2 3
Zscore: pedagógusokra jutó személyi kiadás
Cluster 1 2001-ben (eFt)
147,000 1,21611 -,59133 -,46577
járulékokkal
2 pedagógusokra
Zscore: nem 1,000
jutó személyi
,12658 -,09067 -,10879
kiadás járulékokkal
3 2001-ben (eFt)
291,000
Zscore: Közmű és energiakiadások 2001-ben
Valid 439,000 ,00399 -,11251 -,08020
(eFt)
Missing 385,000
Zscore: Felújítási és beruházási kiadás
,21291 14,56953 -,21553
2001-ben (eFt)
Cluster
1 2 3 4 5
ped_arany ,60 11,14 2,50 ,61 7,56
nemped_arany ,18 1,41 ,84 ,13 1,23
kozmu_arany ,05 ,79 ,41 ,08 ,48
beruh_arany 6,84 ,07 ,18 ,06 ,06
Cluster
1 2 3 4 5
ped_arany ,54 ,18 ,07 ,71 ,03
nemped_arany ,17 ,10 ,79 ,10 ,05
kozmu_arany ,10 ,06 ,05 ,07 ,96
beruh_arany ,06 ,11 ,05 ,05 ,36
Cluster
1 2 3 4 5 6
ped_arany ,49 ,55 ,15 ,03 ,07 ,72
nemped_arany ,17 ,16 ,08 ,05 ,79 ,10
kozmu_arany ,11 ,09 ,06 ,96 ,05 ,07
beruh_arany ,27 ,04 ,07 ,36 ,05 ,05