Professional Documents
Culture Documents
1
2016 年 2 月 Journal of Transportation Systems Engineering and Information Technology February 2016
基于聚类分析的铁路出行旅客类别划分
吕红霞*a,b,王文宪 a,b,蒲 松 a,b,余大本 a,b
(西南交通大学 a. 交通运输与物流学院;b. 全国铁路列车运行图编制研发培训中心,成都 610031)
摘 要: 对铁路出行旅客进行类别划分,是简化旅客乘车选择问题研究的重要策略.根
据成都—武汉段既有线与新线的旅客调查数据,以旅客的各类主体、出行特性作为属性
变量,运用分层聚类法中的凝聚法进行变量聚类,将具有较大相关性的变量——时间价
值与月收入、出行目的与费用来源合并.然后根据简化的旅客属性变量指标集,运用近邻
传播算法对旅客进行样本聚类,并引用 CH、Hart 及 IGP 等聚类有效性指标确定最佳聚类
数.指标值表明,将铁路出行旅客划分为 6 个类别时,具有最好的聚类效果.调查数据中旅
客乘车选择结果亦显示,不同类别的旅客对客运产品的选择有着明显的偏好.
关键词: 铁路运输;铁路出行旅客;类别划分;聚类分析;近邻传播算法
DOI:10.16097/j.cnki.1009-6744.2016.01.020
Abstract: Classification of railway passenger is a crucial strategy of simplifying the problem of boarding
choice for passengers. According to the survey data of Chengdu-Wuhan railway lines, this paper takes
characteristic and travel features of passengers as property variables. Firstly, property variables are clustered
by hierarchical clustering. The variables of great relevance such as time value and monthly income, trip
purpose and cost sources are combined. Secondly, passenger samples are clustered by affinity propagation
algorithms according to the simplified nodes indexes. Clustering effectiveness indexes contained CH, Hart
and IGP indexes are analyzed to the clustering consequence. The result indicates that it is of the best effect
while the passengers are divided into 6 sorts. The boarding choice of passengers in survey data also shows
that different types of passengers give preferences to diversified transport product.
Keywords: railway transportation; railway passengers; classification; cluster analysis; affinity propagation
algorithms
0 引 言 多,加之出行者个人喜好等难以测定的因素的存
高速铁路的开通运营,以及运输产品的多元 在,旅客乘车方案选择是一个复杂的问题.针对该
化,使旅客的乘车方案大幅增加,有不同类型的列 问题,江南 [1] 将其转化为广义最短路问题,并采用
车及客运产品可供选择.但乘车选择涉及因素众 Floyd-Warshall 算法求解.杨信丰[2]设计旅客出行可
表1 旅客属性描述及乘车选择
Table 1 Description of passenger property
样 本 年 龄 性 别 月收入 时间价值 出行目的 费用来源 乘车选择
1 29 女 2 400 较 低 旅 游 自 费 特快硬卧
2 36 男 5 200 高 商务出差 公 费 动车一等座
3 19 男 无 低 上 学 自 费 快速硬座
… … … … … … … …
1 037 45 男 2 100 一 般 探 亲 自 费 快速硬卧
第 16 卷 第 1 期 基于聚类分析的铁路出行旅客类别划分 131
r ij = k=1
(1)
∑(x ki - xi)2∙ ∑(x kj - x j )2
837 837
间平均连接法计算相似性度量方法,即合并两类 - -
的结果使所有的两两项对之间的平均距离最小. k=1 k=1
表2 变量的相关系数矩阵
Table 2 Related coefficient matrix of variables
变 量 年 龄 性 别 月收入 时间价值 出行目的 费用来源
年 龄 1.000 0.345 0.490 0.484 0.506 0. 623
性 别 1.000 0.492 0.487 0.365 0.462
月收入 1.000 0.893 0.472 0.387
时间价值 1.000 0.685 0.593
出行目的 1.000 0.786
费用来源 1.000
根据相关系数矩阵,变量聚类的树形图如图 1 个指标中,费用来源变量取值较少,难以体现不同
所示. 旅客间的差异性.故选择月收入与出行目的作为代
阈值 表变量.
3 铁路出行旅客的聚类划分
3.1 近邻传播聚类算法
近 邻 传 播 算 法(Affinity Propagation,AP)是
2007 年 Frey 等人提出来的一种聚类算法 [13],相比
图1 变量聚类的树形图
Fig. 1 Tree graphics of variable clustering
较于其他传统聚类算法,该算法避免了聚类结果
设置阈值为 0.7,将属性变量指标聚为 4 类是 受限于初始类代表点的选择,同时在处理大规模
比较好的结果[12].然后在得到的每类指标中选取有 多类数据时迭代和收敛的速度更快.本文选择 AP
代表性的典型指标:在月收入与时间价值两个指 算法对旅客进行类别划分.
标中,时间价值具有人为主观设定的特点,月收入 (1)AP 算法原理:
更能体现科学客观性;在出行目的与费用来源两 ① 将数据集的所有 N 个旅客样本都视为候
132 交通运输系统工程与信息 2016 年 2 月
表4 不同类型旅客乘车选择结果
Table 4 Boarding select result of different travelers
客运产品选择概率/%
旅客类别 人 数 比 例
MU-1 MU-2 ET-1 ET-2 ET-3 FT-1 FT-2 FT-3
1 71.1 12.9 7.3 4.5 0.7 2.1 1.4 0.0 98 9.4%
2 27.5 55.1 4.3 2.9 3.1 2.4 2.2 1.5 172 16.6%
3 11.8 54.9 1.7 8.0 19.7 1.4 2.5 0.0 178 17.2%
4 0.3 3.2 0.4 2.7 32.2 2.8 7.2 51.2 296 28.5%
5 0.3 8.2 6.0 18.2 4.5 21.3 34.2 5.8 179 17.3%
6 15.9 10.6 20.3 16.6 2.1 18.5 15.6 0.6 114 11.0%
由表 4 可以发现,第 1 类、第 2 类与第 3 类旅客 旅客样本进行聚类,并根据聚类有效性指标,以及
主要选择动车组出行,第 1 类旅客选择一等座的占 旅客乘车选择结果对聚类结果进行定性和定量分
绝大多数,第 2 类旅客选择二等座的占绝大多数, 析.主要结论如下
第 3 类旅客选择特快硬座的明显增多,故这三类旅 (1)基于聚类分析的凝聚法与近邻传播算法,
客乘车选择时优先考虑出行时间,其不同点在于, 可以很好地利用铁路出行旅客的各类属性、提高
第 1 类旅客亦考虑出行舒适性,第 3 类旅客亦考虑 旅客类别划分的效率;基于聚类有效性指标与乘
出行经济性;第 4 类与第 5 类较少选择动车组,第 4 车选择结果检验,可以确定旅客类别划分结果,尽
类旅客选择硬座的占绝大多数,第 5 类旅客选择卧 可能地将具有相似选择行为的旅客进行归并,从
铺的占绝大多数,故这两类旅客乘车选择时优先 而简化旅客乘车方案选择问题的研究.
考虑出行经济性,其不同点在于第 5 类旅客亦考虑 (2)通过凝聚法对旅客属性变量归并得到指
出行舒适性;第 6 类旅客对列车类型选择无明显偏 标集——年龄、性别、月收入与出行目的,可作为
好,选择动车组的旅客较多选择一等座,选择特快 铁路出行旅客样本聚类的属性变量;通过近邻传
列车与快速列车的旅客较多选择卧铺,选择硬座 播算法,以及 CH、Hart 及 IGP 等聚类有效性指标,
的旅客很少.综上所述,将上述划分的 6 类旅客根 可得出将旅客划分为“时间舒适型”
“ 时间型”
“时
据其乘车选择特点归纳为“时间舒适型”
“时间型” 间经济型”
“经济型”
“经济舒适型”
“舒适型”6 个类
“时间经济型”
“经济型”
“经济舒适型”
“舒适型”. 别时,具有最好的聚类效果,调查数据中的乘车选
择结果亦是如此.
4 结 论 基于类别划分的旅客乘车选择行为研究,
本文以铁路出行旅客为研究对象,结合成都 以及既定开行方案所形成复杂列车服务网络
—武汉既有线与新线铁路旅客出行调查数据,分 下多类型客流分配研究 ,将是下一步研究工作
别运用凝聚法与近邻传播算法对旅客属性变量与 的重点.
134 交通运输系统工程与信息 2016 年 2 月