You are on page 1of 6

第16卷 第 1 期 交通运输系统工程与信息 Vol.16 No.

1
2016 年 2 月 Journal of Transportation Systems Engineering and Information Technology February 2016

文 章 编 号 :1009-6744(2016)01-0129-06 中 图 分 类 号:U292.3 文 献 标 志 码:A

基于聚类分析的铁路出行旅客类别划分
吕红霞*a,b,王文宪 a,b,蒲 松 a,b,余大本 a,b
(西南交通大学 a. 交通运输与物流学院;b. 全国铁路列车运行图编制研发培训中心,成都 610031)

摘 要: 对铁路出行旅客进行类别划分,是简化旅客乘车选择问题研究的重要策略.根
据成都—武汉段既有线与新线的旅客调查数据,以旅客的各类主体、出行特性作为属性
变量,运用分层聚类法中的凝聚法进行变量聚类,将具有较大相关性的变量——时间价
值与月收入、出行目的与费用来源合并.然后根据简化的旅客属性变量指标集,运用近邻
传播算法对旅客进行样本聚类,并引用 CH、Hart 及 IGP 等聚类有效性指标确定最佳聚类
数.指标值表明,将铁路出行旅客划分为 6 个类别时,具有最好的聚类效果.调查数据中旅
客乘车选择结果亦显示,不同类别的旅客对客运产品的选择有着明显的偏好.
关键词: 铁路运输;铁路出行旅客;类别划分;聚类分析;近邻传播算法
DOI:10.16097/j.cnki.1009-6744.2016.01.020

Classification of Railway Passengers Based on Cluster Analysis


LV Hong-xiaa,b,WANG Wen-xiana,b,PU Songa,b,YV Da-bena,b
(a. School of Transportation and Logistics; b. National Railway Train Diagram Research and Training Center, Southwest
Jiaotong University, Chengdu 610031, China)

Abstract: Classification of railway passenger is a crucial strategy of simplifying the problem of boarding
choice for passengers. According to the survey data of Chengdu-Wuhan railway lines, this paper takes
characteristic and travel features of passengers as property variables. Firstly, property variables are clustered
by hierarchical clustering. The variables of great relevance such as time value and monthly income, trip
purpose and cost sources are combined. Secondly, passenger samples are clustered by affinity propagation
algorithms according to the simplified nodes indexes. Clustering effectiveness indexes contained CH, Hart
and IGP indexes are analyzed to the clustering consequence. The result indicates that it is of the best effect
while the passengers are divided into 6 sorts. The boarding choice of passengers in survey data also shows
that different types of passengers give preferences to diversified transport product.
Keywords: railway transportation; railway passengers; classification; cluster analysis; affinity propagation
algorithms

0 引 言 多,加之出行者个人喜好等难以测定的因素的存
高速铁路的开通运营,以及运输产品的多元 在,旅客乘车方案选择是一个复杂的问题.针对该
化,使旅客的乘车方案大幅增加,有不同类型的列 问题,江南 [1] 将其转化为广义最短路问题,并采用
车及客运产品可供选择.但乘车选择涉及因素众 Floyd-Warshall 算法求解.杨信丰[2]设计旅客出行可

收稿日期:2015-03-25 修回日期:2015-05-24 2015-10-29


录用日期:
基金项目:国家自然科学基金/National Natural Science Foundation of China(61273242,
61403317);
四川省科技厅软科学计划
项目/Soft Science Foundation of Sichuan Province STA of China(2015ZR0141);
中国铁路总公司科技研究计划项目/Science
and Technology Plan of China Railway Corporation(2013X006-A, 2013X014-G, 2013X010-A, 2014X004-D).
作者简介:吕红霞(1969-),女,河北邯郸人,教授,博士. hongxialu@163.com
*通信作者:
130 交通运输系统工程与信息 2016 年 2 月

行路径的快速搜索算法,利用信息熵法确定各目 进行分类,而不必人为地给出分类的标准 [10].本文


标的权重,计算各可行路径的综合效用值.史峰[3]提 将铁路出行旅客属性作为个体描述的变量,运用
出旅客乘车行为的效用概念,以收入划分旅客群 分层聚类法中的凝聚法对属性变量进行聚类归并
体,根据列车特型变量计算不同列车选择概率.王 简化,然后采用近邻传播的方法对旅客样本进行
爽 [4] 构建旅客对直达列车与换乘列车两种模式的 类别划分,并引入各种确定最佳聚类数的有效性
Logit 选择模型,
并进行参数标定. 指标对聚类结果加以检验,力求尽可能地体现各
可以发现,上述研究主要分为两类:其一量化 类旅客的主要特征,将具有相似出行需求的旅客
分析乘车时间、票价对旅客乘车的影响,据此建立 归类,从而为旅客乘车选择行为,以及既定开行方
铁路旅客乘车方案优化模型,其二将旅客自身属 案下客流分配研究奠定理论基础.
性与列车属性作为影响因素,利用非集计理论分
析旅客对列车的选择行为.但由于铁路出行旅客数 1 铁路出行旅客类别划分依据
量众多,且乘车选择行为受到众多因素的影响,要 参考铁路出行旅客的主体特性及出行特性,
实现对每个旅客的乘车选择行为进行分析具有相 其类别的划分依据应包括如下指标:年龄、性别、
当的困难.对铁路出行旅客进行类别划分,根据旅 月收入、时间价值、出行目的与出行费用来源.对以
客的自身及出行特性,将具有相似选择行为的旅 上指标进行量化或定性描述,作为铁路出行旅客
客进行归并,是简化旅客乘车方案选择问题研究 的属性参数,
用于旅客样本的聚类分析.
的重要策略之一. 为了便于对铁路出行旅客的特性进行分析,
目前国内外对铁路出行旅客类别划分尚无统 课题小组在成都、重庆北、达州、宜昌东、襄阳及汉
一的方法.胡小风 [5]、柳健[6]根据旅客出行需求差异 口等车站,对旅客各项属性进行了调查.铁路出行
性,将旅客分为时间型、经济型、舒适型三种基本 属于低频率行为,常规问卷虽然最大程度上保证
类型.但上述方法主要依靠经验,采用人为划分方 样本的随机性和无偏性,但有可能降低调查精度,
式,效率和精度低,不能很好地反映客观情况.曾鸣 分析旅客乘车选择行为需要采用比纯随机抽样法
凯 、聂磊 、佟璐 等在其构建的客流分配模型中
[7] [8] [9]
更高效、可靠的方法.选择方案抽样法是根据实际
引入时间价值,作为旅客层次划分的依据.但相关 选择结果分割总体,从各选择方案层随机抽样的
研究与调查结论显示,铁路旅客的乘车选择行为 方法,其主要目的是增加比率较小方案的样本量,
不完全依赖于其收入水平和消费水平,其他属性 从而提高调查精度[11].成都—武汉铁路旅客乘车方
诸如年龄、性别、出行目的,以及出行费用来源都 式包括:动车组、特快列车与快速列车,因此以这 3
与乘车选择行为有较大的关联.旅客类别划分,是 种乘车方式作为选择方案集,分别对出行者进行
一个由多种影响因素共同决定的复杂问题. 问卷调查.
聚类分析可以较好地解决这一问题,其本质 对 3 种乘车方式的旅客分别发放问卷 400 份,
是根据对象在某些属性上的相似性,将模式空间 共计 1 200 份,回收有效问卷 1 037 份,其中,乘坐
R 中有限数据集 X ={x1,x 2 ,...,x N} 划分成 m 个相互
n
动车组、特快列车与快速列车旅客的样本数量分
无交集的非空子集 C1,C 2 ,...,C m ,能在没有先验知 别为 387、303、347.样本数据具体描述如表 1 所示.
识的情况下,将样本数据按事物性质的内在联系

表1 旅客属性描述及乘车选择
Table 1 Description of passenger property
样 本 年 龄 性 别 月收入 时间价值 出行目的 费用来源 乘车选择
1 29 女 2 400 较 低 旅 游 自 费 特快硬卧
2 36 男 5 200 高 商务出差 公 费 动车一等座
3 19 男 无 低 上 学 自 费 快速硬座
… … … … … … … …
1 037 45 男 2 100 一 般 探 亲 自 费 快速硬卧
第 16 卷 第 1 期 基于聚类分析的铁路出行旅客类别划分 131

2 划分指标的聚类归并 旅 客 P ={X1,X 2 ,X3,X 4 ,X 5,X 6} ,其 中 X1 、X 2 、X3 、


聚类方法包括两种类型——变量聚类(R 型聚 X 4 、X 5 、X 6 分别表示相应旅客 P 的年龄、性别、月
类)和样本聚类(Q 型聚类).前者是对描述样本属 收入、时间价值、出行目的及费用来源共 6 个属性
性的变量进行聚类,以便分析彼此独立且具有代 变量,对于性别、出行目的及费用来源等定性的属
表性的变量,从而减少分析变量的个数,后者是使 性变量,其取值方法为:
(1)性别属性中,男取值为
具有共同特点的样本聚集在一起,以便分析不同 0,女取值为 1;
(2)时间价值属性中,高取值为 4,较
样本. 高取值为 3,一般取值为 2,较低取值为 1,低取值为
上述旅客属性指标中,某些指标变量之间具 (3)出行目的属性中,公商务取值为 4,旅游取值
4;
有较强的相关性和替代性,若以其中某个变量代 为 3,探亲取值为 2,务工取值为 1,上学取值为 0;
替与其相关的其他变量,可以简化指标体系,从而 (4)费用来源属性中,
公费取值为 1,自费取值为 0.
在不影响分类结果的基础上减少计算工作量和时 各 属 性 变 量 可 描 述 为 X i =(x1i ,x 2i ,⋯,x1037i),
间.本文采用分层聚类法中的凝聚法对上述指标进 i = 1,2,⋯,6 ,其中 X i 与 X j 间的相似性可用相关系
行聚类归并.该方法初始时将参与聚类的每个变量 数 r ij 度量,
其计算公式为
各自归并为一类,然后根据变量两两之间的距离
∑(x
837
- -
- x i)(x kj - x j )
或相似性逐步合并,直至合并为一个大类.采用组 ki

r ij = k=1
(1)
∑(x ki - xi)2∙ ∑(x kj - x j )2
837 837
间平均连接法计算相似性度量方法,即合并两类 - -
的结果使所有的两两项对之间的平均距离最小. k=1 k=1

铁路出行旅客样本 Ω 中,基础数据包括每个 计算后的相关系数矩阵如表 2 所示.

表2 变量的相关系数矩阵
Table 2 Related coefficient matrix of variables
变 量 年 龄 性 别 月收入 时间价值 出行目的 费用来源
年 龄 1.000 0.345 0.490 0.484 0.506 0. 623
性 别 1.000 0.492 0.487 0.365 0.462
月收入 1.000 0.893 0.472 0.387
时间价值 1.000 0.685 0.593
出行目的 1.000 0.786
费用来源 1.000
根据相关系数矩阵,变量聚类的树形图如图 1 个指标中,费用来源变量取值较少,难以体现不同
所示. 旅客间的差异性.故选择月收入与出行目的作为代
阈值 表变量.

3 铁路出行旅客的聚类划分
3.1 近邻传播聚类算法
近 邻 传 播 算 法(Affinity Propagation,AP)是
2007 年 Frey 等人提出来的一种聚类算法 [13],相比
图1 变量聚类的树形图
Fig. 1 Tree graphics of variable clustering
较于其他传统聚类算法,该算法避免了聚类结果
设置阈值为 0.7,将属性变量指标聚为 4 类是 受限于初始类代表点的选择,同时在处理大规模
比较好的结果[12].然后在得到的每类指标中选取有 多类数据时迭代和收敛的速度更快.本文选择 AP
代表性的典型指标:在月收入与时间价值两个指 算法对旅客进行类别划分.
标中,时间价值具有人为主观设定的特点,月收入 (1)AP 算法原理:
更能体现科学客观性;在出行目的与费用来源两 ① 将数据集的所有 N 个旅客样本都视为候
132 交通运输系统工程与信息 2016 年 2 月

选的类代表,为每个旅客建立与其他旅客的吸引 3.2 聚类有效性指标


程度的信息,即任意两个旅客 x i 和 x k 之间的相似 AP 算法进行样本聚类能够输出一系列具有不
度,存储在 N × N 相似度矩阵中. 同聚类数目的聚类结果,故需对聚类结果进行有
② 用 s(i,k) 表示旅客 x k 在多大程度上适合作 效性评价.聚类有效性是评价聚类结果的质量并确
为旅客 x i 的类代表,初始假设所有旅客样本被选 定最适合特定数据集的划分,即采用聚类有效性
中成为类代表的可能性相同,即设定所有 s(k,k) 为 指标来评价聚类算法产生的哪个聚类结果是最优
相同值 p . 的,并将最优结果所对应的聚类数目作为最佳聚
③ 算法引入了两个重要的信息量参数——可 类数 [14].常用的确定最佳聚类数的有效性指标为:
信度矩阵 r 和可用度矩阵 a ,r(i,k) 是从 x i 指向 Calinski-Harabasz 指标、Hartigan 指标和 In-Group
x k ,用来表示 x k 适合作为 x i 的类代表的代表程度; Proportion 指标等.

a(i,k) 是从 x k 指向 x i ,用来表示 x i 选择 x k 作为类代 (1)Calinski-Harabasz 指标.

表的合适程度.对于任意旅客样本 x i ,计算所有样 CH 指标是基于全部样本的类内离差矩阵和


类间离差矩阵的测度,其最大值对应的类数作为
本的可信度 r(i,k) 和可用度 a(i,k) 之和,则两者之和
最佳聚类数.
最大的样本 x k 为类代表,AP 算法的迭代为上述两
trB(k) (k - 1)
个信息量交替更新的过程. CH(k) = (6)
trW(k) (n - k)
(2)算法基本步骤.
Step1 初始化. 式 中 :k 为 聚 类 数 ;trB(k) 为 间 离 差 矩 阵 的 迹 ;
计算样本相似度矩阵 s(i,k) ,矩阵值采用欧式 trW(k) 为类内离差矩阵的迹.
距离为测度,即 (2)Hartigan 指标.

s(i,k) = -||x i - x k||2 (2) Hart 指标可以用于聚类数为 1 的情况,其满足


Ha≤10 的最小类数作为最佳聚类数.
设置对角线元素 s(k,k) 为相同的吸引度中值
trW(k)
p =∑s(i,j) N∙(N - 1) Hart(k) =( - 1)(n - k - 1) (7)
(3) trW(k + 1)
i≠j

(3)In-Group Proportion 指标.


设置可信度矩阵 r(i,k) 和可用度矩阵 a(i,k) 的
IGP 指标[5]用来衡量在某一类中距离每个样本
初始值为 0.
最近的样本是否在同一类中,所有聚类的平均 IGP
Step2 迭代.
指标越大表示聚类的质量越好,其最大值对应的
① 更新可用度和可信度.
类数为最佳聚类数.
可信度矩阵 r(i,k) 更新计算公式为
#{ j|Class( j) = Class( j N ) = u}
r(i,k) ← s(i,k) - max {a(i,k ) + s(i,k )}
' ' IGP(u) = (8)
k' ≠ k
(4) #{ j|Class( j) = u}
可用度矩阵 a(i,k) 更新计算公式为 式中:u 为某聚类的类标;Class( j) 为样本 j 的类
ìmin{0,r(k,k) + ∑ max[0,r(i' ,k)]},i ≠ k 标;j N 为距离样本 j 最近的样本;# 为满足条件的
ï
a(i,k) ← í
'
i ≠{i,k}
个数.
ï∑
(5)
max[0,r(i'
,k)],i =k
îi ≠ k
' 基于 AP 算法,对采用上述 3 种有效性指标得
到的聚类结果如表 3 所示
② 对所有样本求可信度与可用度之和,根据
由表 3 可知,CH 指标、Hart 指标及 IGP 指标得
arg max
k
{r(i,k) + a(i,k)} 找到每个样本的类中心样本。
到的最佳聚类数均为 6.以下通过调查数据中旅客
Step3 结果输出.
乘车选择行为结果,分别对两种聚类数的准确性
判断信息迭代过程是否达到设置的最大迭代
进行量化分析.
次数,是则算法终止,否则返回 Step2.
第 16 卷 第 1 期 基于聚类分析的铁路出行旅客类别划分 133

表3 不同聚类数的有效性指标值 3.3 聚类结果分析


Table 3 Validity index value of different clusters 成都—武汉既有线与新线提供的客运产品为
聚类数 CH Hart IGP
动车组一等座(Multiple Unit-1,MU-1)、动车组二
2 0.292 32.39 0.866
3 0.355 38.72 0.871 等 座(Multiple Unit- 2,MU- 2)、特 快 列 车 软 卧
4 0.411 27.47 0.859 (Express Train- 1,ET- 1)、特 快 列 车 硬 卧(Express
5 0.388 31.20 0.874
6 0.481* 47.30* 0.958* Train- 2,ET- 2),特 快 列 车 硬 座(Express Train- 3,
7 0.286 19.82 0.868 ET-3)、快速列车软卧(Fast Train-1,FT-1)、快速列
8 0.205 11.69 0.843
车硬卧(Fast Train-2,FT-2)、快速列车硬座(Fast
9 0.132 4.31 0.831
10 0.028 9.90 0.825 Train-3,FT-3).不同旅客乘车选择情况按聚类结果
汇总后如表 4 所示.

表4 不同类型旅客乘车选择结果
Table 4 Boarding select result of different travelers
客运产品选择概率/%
旅客类别 人 数 比 例
MU-1 MU-2 ET-1 ET-2 ET-3 FT-1 FT-2 FT-3
1 71.1 12.9 7.3 4.5 0.7 2.1 1.4 0.0 98 9.4%
2 27.5 55.1 4.3 2.9 3.1 2.4 2.2 1.5 172 16.6%
3 11.8 54.9 1.7 8.0 19.7 1.4 2.5 0.0 178 17.2%
4 0.3 3.2 0.4 2.7 32.2 2.8 7.2 51.2 296 28.5%
5 0.3 8.2 6.0 18.2 4.5 21.3 34.2 5.8 179 17.3%
6 15.9 10.6 20.3 16.6 2.1 18.5 15.6 0.6 114 11.0%
由表 4 可以发现,第 1 类、第 2 类与第 3 类旅客 旅客样本进行聚类,并根据聚类有效性指标,以及
主要选择动车组出行,第 1 类旅客选择一等座的占 旅客乘车选择结果对聚类结果进行定性和定量分
绝大多数,第 2 类旅客选择二等座的占绝大多数, 析.主要结论如下
第 3 类旅客选择特快硬座的明显增多,故这三类旅 (1)基于聚类分析的凝聚法与近邻传播算法,
客乘车选择时优先考虑出行时间,其不同点在于, 可以很好地利用铁路出行旅客的各类属性、提高
第 1 类旅客亦考虑出行舒适性,第 3 类旅客亦考虑 旅客类别划分的效率;基于聚类有效性指标与乘
出行经济性;第 4 类与第 5 类较少选择动车组,第 4 车选择结果检验,可以确定旅客类别划分结果,尽
类旅客选择硬座的占绝大多数,第 5 类旅客选择卧 可能地将具有相似选择行为的旅客进行归并,从
铺的占绝大多数,故这两类旅客乘车选择时优先 而简化旅客乘车方案选择问题的研究.
考虑出行经济性,其不同点在于第 5 类旅客亦考虑 (2)通过凝聚法对旅客属性变量归并得到指
出行舒适性;第 6 类旅客对列车类型选择无明显偏 标集——年龄、性别、月收入与出行目的,可作为
好,选择动车组的旅客较多选择一等座,选择特快 铁路出行旅客样本聚类的属性变量;通过近邻传
列车与快速列车的旅客较多选择卧铺,选择硬座 播算法,以及 CH、Hart 及 IGP 等聚类有效性指标,
的旅客很少.综上所述,将上述划分的 6 类旅客根 可得出将旅客划分为“时间舒适型”
“ 时间型”
“时
据其乘车选择特点归纳为“时间舒适型”
“时间型” 间经济型”
“经济型”
“经济舒适型”
“舒适型”6 个类
“时间经济型”
“经济型”
“经济舒适型”
“舒适型”. 别时,具有最好的聚类效果,调查数据中的乘车选
择结果亦是如此.
4 结 论 基于类别划分的旅客乘车选择行为研究,
本文以铁路出行旅客为研究对象,结合成都 以及既定开行方案所形成复杂列车服务网络
—武汉既有线与新线铁路旅客出行调查数据,分 下多类型客流分配研究 ,将是下一步研究工作
别运用凝聚法与近邻传播算法对旅客属性变量与 的重点.
134 交通运输系统工程与信息 2016 年 2 月

参考文献: 571- 574. [ZENG K M, HUANG J, PENG Q Y.


Research on assignment of passenger train plan for
[1] 江南,史峰,卢红岩,等. 铁路旅客乘车方案优化决策
dedicated passenger traffic lines[J]. Journal of Southwest
模型研究[J].铁道学报,2007,29(3):13-18. [JIANG
Jiaotong University, 2006, 41(5): 571-574.]
N, SHI F, LU H Y,et al. The study on optimization
[8] 聂磊,胡小风,佟璐,等. 基于旅客列车开行方案的客
decision making model of passenger traveling plan by
流分配方法研究[J]. 交通运输系统工程与信息,2011,
train[J]. Journal of the China railway Society, 2007,29(3):
11(3):87- 92. [NIE L, HU X F, TONG L, et al.
13-18]
Research of passenger flow assignment based on
[2] 杨信丰,刘兰芬,李引珍,等. 多目标铁路旅客乘车方
passenger train plan[J]. Journal of Transportation
案优化模型及算法研究[J]. 交通运输系统工程与信
Systems Engineering and Information Technology,2011,
息,2013,13(5):72-78. [YANG X F, LIU F L, LI Y Z,
11(3): 87-92.]
et al. Route selection for railway passengers: A multi-
[9] 佟璐,聂磊,付慧伶. 基于复杂列车服务网络的客流分
objective model and optimization algorithm[J]. Journal
配方法研究[J]. 铁道学报,2012,34(10):7-15. [TONG
of Transportation Systems Engineering and Information
L, NIE L, FU H L. Research on passenger flow
Technology, 2013,13(5):72-78]
assignment method based on complex train service
[3] 史峰,邓连波,霍亮. 铁 路 旅 客 乘 车 选 择 行 为 及 其
network[J]. Journal of the China Railway Society,2012,
效 用 [J]. 中国铁道科学,2007,28(6):117-121. [SHI
34(10): 7-15.]
F, DENG L B, HUO L. Boarding choice behavior and its
[10] Marques J P. Pattern recognition concepts, methods
utility of railway passengers[J]. China Railway Science,
and applications[M]. Beijing: Tsinghua University Press,
2007,28(6):117-121]
2002.
[4] 王爽,赵鹏. 基 于 Logit 模 型 的 客 运 专 线 旅 客 选 择 行
[11] Esmeralada A R. Regression models for choice- based
为 分 析 [J].铁道学报,2009,31(3):6-10. [WANG S,
samples with misclassification in the response
ZHAO P. Analysis of passengers choice behavior for
variable[J]. Journal of Econometrics,2002,106(1):171-
dedicated passenger railway lines based on logit
201.
model[J]. Journal of the China Railway Society, 2009,31
[12] 何晓群. 现代统计分析方法与应用[M]. 北京:中国人
(3):6-10]
民 大 学 出 版 社 ,1999. [HE X Q. Modern statistical
[5] 胡小风. 混 合 铁 路 客 运 服 务 网 中 多 层 次 客 流 分 配
methods and applications[M]. Beijing: Chinese People
技 术 研 究 [D]. 北 京 交 通 大 学 ,2012. [HU X F.
University Press, 1999.]
Research on technologies of mutli-level passenger flow
[13] Frey B J, Dueck D. Clustering by passing messages
assignment in the mixed-train service network[D].
between data points[J]. Science,2007,315(5814):972-
Beijing Jiaotong University,2012.]
976.
[6] 柳健. 高速铁路多层次客流分配方法及系统设计[D].
[14] 周世兵,徐振源,唐旭清. 基 于 近 邻 传 播 算 法 的 最
北京交通大学,2013. [LIU J. Multilevel passenger flow
佳 聚 类 数 确 定 方 法 比 较 研 究 [J]. 计 算 机 科 学 ,
assignment method in high speed railways and the
2011,38(2):225-228. [ZHOU S B, XU Z Y, TANG X
computer system design[D]. Beijing Jiaotong University,
Q. Comparative study on method for determining
2013.]
optimal number of clusters based on affinity propagation
[7] 曾鸣凯,黄鉴,彭其渊. 客运专线旅客列车开行方案的
clustering[J]. Computer Science, 2011, 38(2): 225-228.]
客流分配方法[J]. 西南交通大学学报,2006,41(5):

You might also like