第 5 卷 第 4 期              重庆交通学院学报 (社科版 )              2005 年 12 月

Vol. 5  No. 4     JOURNAL OF CHONGQ IN G J IAOTONG UN IV ERSITY ( Social Sciences Edition )     Dec.   
2005

全国区域经济发展水平的聚类分析

3

罗  姗 ,  朱国会
(重庆师范大学 数学与计算机学院 ,重庆 400047)

摘  要 : 设计区域经济发展的指标体系 ,包括人均 GDP、
人均第一产值 、
人均第二产值 、
人均第三产值 、
居民消
费水平 、
人均财政收入 、
人均邮电总量 、
人均进出口总额 。用系统聚类分析方法将全国 31 个省市 (区域 ) 的经
济发展状况进行归类分析 ,得出全国区域经济发展水平的分类情况 。
关键词 : 区域经济 ;  发展水平 ;  聚类分析
中图分类号 : F22    文献标识码 : A    文章编号 : 1009 - 9794( 2005) 04 - 0078 - 04
  1978 年改革开放以来 ,中国经济保持着持续的快速增

好的发 展态势 。 2002 年 GDP 高 达 103553. 6 亿元 , 人均

长 , 1978 ~1998 年 GDP 的年均增长率高达 9. 7% , 1999 ~

GDP则到达 8184 元 。但我们还应看到 , 区域发展差距进

2002 年 GDP增长率均高于 7. 0% ,国民经济总体保持了良

一步拉大 ,根据调查数据得到表 1。

东中西部差距系数

表 1

1978 年

2002 年

绝对差距 (元 )

相对差距系数 ( % )

绝对差距 (元 )

相对差距系数 ( % )

东中部

153. 6

33. 1

1351. 5

44. 5

东西部

212. 9

45. 9

1738. 5

57. 2

  缩小各区域经济发展差距 , 实现区域间的协调发展 ,

由于反映一个地区的经济发展状况的指标很多 ,而分

不仅具有重要的政治 、
经济 、
社会意义 , 而且也是我国整体

析时只能考虑有限个指标对经济发展的影响情况 , 因此所

经济步入新的台阶的客观需要 。

选的指标不仅要有明确的社会和经济意义 , 而且能比较显

本文试图运用多元统计分析方法中的聚类分析方法 , 著地反映地区经济发展水平 。
分析我国 31 个区域的经济发展状况和差异类别 ,从中找出
一些有用的信息 ,为我国经济如何协调快速发展提供有益
的启示 。

(四 )指标的可得性

有些指标虽然在评价地区经济发展水平时具有重要
作用 ,但是由于一些原因使得指标数值不可得 , 因此 , 我们
在指标选择时要么放弃 ,要么用近似的指标进行代替 。

一、
指标体系的设计

基于上面 4 个方面考虑 ,根据《中国统计年鉴 》
的统计

(一 )指标体系的整体性

数据 ,选用《中国统计年鉴 》
中较能反映一个区域经济发展

指标体系的设计既要反映出各地区经济发展水平 , 又

总体水平的综合部分 ,财政 、
金融和保险部分 , 人民生活部

要能反映地区发展的潜力 , 也即是地区的可持续发展水

分 ,运输 、
邮电部分 , 对外经济与旅游等 5 部分中的人均

平。

GDP、
人均第一产值 、
人均第二产值 、
人均第三产值 、
居民消
(二 )指标的可比性

由于地域间存在空间大小 、
人口多少差别 , 在研究地
区发展水平时 , 总量指标存在不可比性 , 故所采用指标应
为具有可比性的平均指标 。
(三 )指标的代表性

3

费水平 、
人均财政收入 、
人均邮电业务总量 、
人均进出口总
额等 8 项指标构建为本文分析区域经济发展水平的指标体
系。
X1 : 人均 GDP,用其反映区域经济发展的一般水平 。
X2 : 人均第一产业产值 ,用其反映区域农业发展水平 。

收稿日期 : 2005 - 04 - 25    修订日期 : 2005 - 07 - 01
作者简介 : 罗  姗 (1980 - ) ,女 ,重庆长寿人 ,重庆师范大学数学与计算机学院系统理论 2003 级硕士生 , 主要从
事宏观经济决策分析研究 。

罗  姗等 : 全国区域经济发展水平的聚类分析
X3 : 人均第二产业产值 ,用其反映区域工业化水平 。
X4 : 人均第三产业产值 , 用其反映区域服务业和城镇

79

X7 : 人均邮电业务总量 , 用其反映区域内信息产业和

高新产业发展水平 。

化水平 。

X8 : 人均进出口总额 , 用其反映区域对外贸易的发展

X5 : 居民消费水平 , 用其反映区域内居民的生活水平

水平与商业竞争能力 。

和购买能力 。

本文认为以上 8 个经济指标基本能反映区域经济发展

X6 : 人均财政收入 , 用其反映区域经济实力与公益设

施建设能力 。

状况 ,由《中国统计年鉴 (2003) 》
可得到 2002 年全国 31 个
省市以上 8 个指标数值 ,见表 2。

2002 年全国各省市经济指标

人均第二产

人均第三产

居民消费

人均财政

人均邮电业

人均进出口

(元 )

业产值 (元 )

业产值 (元 )

业产值 (元 )

水平 (元 ) 收入 (元 )

务总量 (元 )

总额 (美元 )

北京

28449

853. 47

9900. 25

17695. 28

9291

3752. 57

1800. 77

3689. 76

天津

22380

917. 58

10921. 44

10540. 98

7162

1706. 38

914. 00

2265. 28

河北

9115

1421. 94

4539. 27

3153. 79

3054

448. 86

332. 37

98. 96

山西

6146

602. 308

3300. 40

2243. 29

2562

457. 88

334. 37

70. 17

内蒙古

7241

1564. 06

3041. 22

2635. 74

3453

474. 38

363. 56

102. 31

辽宁

12986

1402. 49

6207. 31

5376. 20

5095

950. 96

618. 42

517. 24

吉林

8334

1658. 47

3625. 29

3050. 24

3869

487. 17

436. 46

137. 18

黑龙江

10184

1181. 34

5662. 30

3340. 35

4337

608. 16

486. 89

114. 06

上海

40646

650. 34

19266. 2

20729. 46

14295

4362. 78

1426. 22

4469. 36

江苏

14391

1511. 06

7512. 10

5367. 84

4704

872. 10

466. 33

952. 29

浙江

16838

1498. 58

8604. 22

6735. 2

5515

1219. 82

806. 78

902. 86

安徽

5817

1256. 47

2530. 40

2030. 13

2988

315. 90

232. 96

65. 97

福建

13497

1916. 57

6222. 12

5358. 31

4900

787. 32

695. 99

819. 31

江西

5829

1276. 55

2261. 65

2290. 80

2651

332. 89

289. 55

40. 13

山东

11645

1537. 14

5857. 44

4250. 43

3952

671. 91

358. 60

373. 65

河南

6436

1345. 12

3076. 41

2014. 47

2581

308. 66

235. 09

33. 32

湖北

8319

1181. 30

4092. 95

3044. 75

3535

406. 55

284. 69

66. 02

湖南

6565

1280. 18

2626

2658. 83

3013

348. 69

284. 88

43. 38

广东

15030

1322. 64

7575. 12

6132. 24

5683

1528. 96

1169. 40

2813. 29

广西

5099

1239. 06

1794. 85

2065. 10

2405

387. 25

264. 95

50. 40

海南

7803

2957. 34

1615. 22

3230. 44

3198

575. 82

489. 04

232. 48

重庆

6347

1015. 52

2665. 74

2665. 74

2836

405. 75

288. 54

57. 71

四川

5766

1216. 63

2346. 76

2202. 61

2621

336. 53

257. 43

51. 52

贵州

3153

747. 26

1264. 35

1141. 39

1701

282. 20

200. 52

18. 02

云南

5179

1092. 77

2206. 25

1879. 98

2377

477. 17

292. 68

51. 39

西藏

6093

1498. 88

1242. 97

3351. 15

2313

273. 72

277. 15

48. 83

陕西

5523

822. 93

2512. 97

2187. 11

2404

409. 07

364. 92

60. 53

甘肃

4493

826. 71

2053. 30

1612. 99

1975

294. 03

252. 06

33. 84

青海

6426

848. 23

2898. 13

2679. 64

2644

398. 80

346. 88

37. 17

宁夏

5804

934. 44

2664. 04

2205. 52

2583

462. 79

382. 52

77. 43

新疆

8382

1600. 96

3528. 82

3252. 22

3150

611. 40

508. 19

141. 30

地区

人均 GDP 人均第一产

表 2

重庆交通学院学报 (社科版 )             第 5 卷

80

类 。聚类分析的优点在于它确定的类别是基于对样本的

二、
聚类分析
聚类分析方法的思想是在不知研究的一批样本应该

观察指标的分析 ,分类的结果能客观地显示样本间的本质
判别与联系 , 尤其是内在结构关系 , 而且分类结果直观 。

分为几类 , 也不知每个样本究竟取自哪一类的情况下 , 依

聚类谱系图可以很清楚地表示根据数值分类的结果 , 对客

据各样本自身的特点 ,通过定量测算各样本之间的相似程

观分析和合理评价区域间经济发展水平的差异是有利的 。

度和亲疏关系 , 将性质比较相似 、
综合差异比较小的样本

以下应用 SPSS统计软件对表 1 中 31 个样本的 8 个观

分别聚合成类 , 而将性质相似性比较小 、
综合差异比较大
的样本区分为不同的类 ,从而将整个研究对象聚合成若干

  聚类分析测度个体之间的相似性的方法主要有相关

察指标进行系统聚类分析 。
(一 )样本间的相似度测量标准

测度 、
距离测度和关联测度 。其中 ,关联测度适用于分类测

罗  姗等 : 全国区域经济发展水平的聚类分析
度等级的数据 ,相关测度利用相关系数的大小来判断两个

龙江 、
山东 、
辽宁 、
福建 、
江苏 ,其余 21 个省市 。

样本之间的相似性 ,距离测度是利用两个样本之间的距离
大小来判断其相似性 。本文采用距离测度来衡量全国区

81

按离差平方和法分成四类 : 上海 ,天津 、
北京 , 辽宁 、

建、
江苏 、
浙江 、
广东 ,其余 23 个省市 。

域经济发展水平的相似性 。常见的距离测度有平方欧氏

由谱系图不难看出 ,两种聚类方法的分类结果基本上

距离 、
欧氏距离 、
绝对值距离 、
明科夫斯基距离等 。本文采

是一致的 , 并且都可以分为四类 , 细微差别在黑龙江和山

用平方欧氏距离测度全国区域经济发展水平的相似度 。

东的分类上 。

平方欧氏距离的定义为 :
2

D ij = ∑81 ( Xik - Xjk )   ( i, j = 1, 2, 3, ……31; k = 1, 2, 3

三、
分类结果与区域经济发展差异评价

……8)

1. 谱系图上我们可以看到 ,上海单独成为一类 。它是

其中 D ij表示样本 i与样本 j之间的距离 , Xik表示第 i 我国经济高速发展地区 ,并且具有很强的发展潜力 。
个样本在第 k个指标上的值 , Xjk表示第 j个样本在第 k 个
指标上的值 。

2. 第二种类型是北京 、
天津 ,它们的各项经济指标均位

于全国前列 ,属于我国经济发展水平较高的区域 。

(二 )聚类方法

3. 浙江 、
广东 、
黑龙江 、
山东 、
辽宁 、
福建 、
江苏成为第三

聚类的方法有很多种 , 其中系统聚类法和迭代聚类法

类 。该类区域的经济发展水平一般 ,但发展潜力较大 ,后劲

应用比较广泛 ,本文采用系统聚类法对全国区域经济发展

较足 。这类区域多为我国主要的沿海开放地区 , 吸引了我

水平进行分析 。系统聚类法中计算类与类之间距离的方

国主要的外资 ,并在其区域内形成了一些特色产业 。

法有多种 ,主要有最短距离法 、
最长距离法 、
中间距离法 、

4. 余下的 21 个省市成为第四类 。这类区域经济发展

类间平均法 、
重心法 、
离差平方和法六种方法 。为了确保

水平较低 。这些区域相对底子薄 、
人口多 ,虽然自然资源相

分类结果的准确性 ,本文用两种聚类方法 。

对较为丰富 ,但由于处于内陆地区 , 交通运输 、
外贸条件相

1. 类平均法 : 合并两类的结果使所有的两两类别之间

的平均距离最小 。

对较差 ,造成了该类区域第一产业产值在 GDP 中所占比重
大 ,二 、
三产业的发展相对落后 。

2
2
D (p , q) = ∑i∈Gp ∑i∈Gq dij / np nq

综上 ,可以认为聚类分析的结果基本符合我国的实际

其中 , D ( p , q ) 表示类 Gp 与类 Gq 的距离 , np 、nq 表示
Gp 、Gq 两类的样本数 。

情况 。因此 ,在深化改革的基础上应加大政策扶持力度 ,充
分调动各方面发展经济的积极性和创造性 ; 鼓励和引导发

2. 离差平方和法 : 同一类样本的离差平方和应该最小 ,

不同类之间样本的离差平方和应该较大 。

挥区域比较优势 、
区域资源优势 , 形成特色经济 , 有效促进
我国经济发展水平的整体稳步提高 。

2
2
D kr = [ ( nk + np ) / ( nr + nk ) ] D kp + [ ( nk + nq ) / ( nr +
2

参考文献 :

2

nk ) ]D kq - [ nk / ( nr + nk ) ]Dpq

其中 , D kr表示类 Gk 与类 Gr 的距离 , nk 、np 、nr、nk 表示
Gk 、Gp 、Gr、Gk 类的样本数 , D kp 、D kq 、Dpq分别表示类 Gk 与

类 Gp 的距离 、
类 Gk 与类 Gq 的距离 、
类 Gp 与类 Gq 的距

[ 1 ]  余建英 , 等 . 数据统计分析与 SPSS 应用 [M ]. 北京 :

人民邮电出版社 , 2003.
[ 2 ]  于秀林 ,等 . 多元统计分析 [M ]. 北京 : 中国统计出版

社 , 1999.

离。

[ 3 ]  贾凤亭 ,梁晓俐 . 地区经济发展水平的统计分析 [ J ].

(三 )聚类谱系图分析

选定聚类方法和确定距离定义后 , 利用 SPSS 统计软

辽宁工程技术大学学报 , 2002, ( 5 ) .
[ 4 ]  重庆市人民政府办公厅 . 重庆年鉴 ( 2003 ) [M ]. 重

件可分别得到谱系图 1 和谱系图 2。
按类平均法分成四类 : 上海 ,天津 、
北京 ,浙江 、
广东 、

庆 : 重庆年鉴社 , 2003.

C luster Ana lysis of the Reg iona l Econom ic D evelopm en t in Ch ina
LUO Shan, ZHU Guo - hui
( School of M aths and Computer, Chongqing Normal University, Chongqing 400047, China)
Abstract:An index of the regional econom ic development is designed, which includes average GDP, first p roduction rate, second
p roduction rate, service p roduction rate, consump tion rate, financial income, post total, export total per person. Then the cluster a2
nalysis method is used to classify the conditions of thirty one p rovinces ( cities, regions) , and an average classification of the re2
gional econom ic development in China is got.
Key words: regional economy; development level; cluster analysis
(责任编辑 : 吴  莉  张  

)