You are on page 1of 16

2022-2023 年秋季运输经济学期中大作业报告

《共享单车使用量预测分析》

姓 名:凌茂
学 号:2152838
所在院系:交通运输工程学院
学科专业:交通工程
联系方式:18982463967
指导教师:沈煜

二〇二三年 6 月

年 月
摘要

运输经济学为背景,着眼于共享单车市场。以新加坡的共享单车数据作为研
究案例,按照逻辑关系分析共享单车使用量的日变化,小时变化,投放量与使用
量关系,建立两者边际效益关系。结合投放量、交通基础设施、城市建成关系、
天气、特殊活动等因素,建立多因素影响下的共享单车使用量与预测回归模型。
评价得到的结果和模型并对共享单车市场进行评估。
关键词:经济学 边际效益 弹性分析 多元回归分析 共享单车

正文

一、 研究背景——共享单车
1. 共享单车是指共享单车企业在一些公共场所提供的单车租赁服务,采用分
时计费的运营模式,一定程度上解决了市民出行“最后一公里”的问题。
共享单车行业在中国经历了几次模式迭代,从无到有发展迅速,但也出现
了车辆乱停乱放、运营维护不到位、竞争无序、用户资金和信息安全风险等问
题。在经历了互联网共享单车的爆发式发展后,我国共享单车市场发展逐渐趋
于平稳发展,近几年我国共享单车投入车辆维持在 1600-2000 万辆之间水平。
截至 2020 年 10 月,共享单车投入车辆为 1945 万辆。
从用户消费习惯方面来看,被调查者中使用共享单车频率多数在一周 5 次
以下,其中一周使用共享单车一次以下的占比 27%;使用 1-2 次的占比 27%;使用
3-5 次的占比 23%。
2. 新加坡共享单车是指在新加坡一些公共场所提供的无桩单车租赁服务,用
户可以通过手机应用程序扫描二维码解锁单车,并在任何合法的停车位还车。
新加坡共享单车行业在 2017 年开始兴起,当时有多家共享单车企业进入新
加坡市场,如 oBike、OFO、mobike 等。但由于市场竞争激烈、运营成本高
昂、用户乱停乱放等问题,一些企业逐渐退出或倒闭,目前只有少数几家企业
仍在运营。
新加坡政府为了规范共享单车行业,制定了一系列的法规和措施,如设立
自行车停放区、实施自行车停放证制度、限制共享单车投放量、要求共享单车
企业提供用户押金保障等。这些措施旨在保护用户利益、维护城市秩序、促进
共享单车的可持续发展。
3. 新加坡的共享单车与国内的市场情况有较大的区别:无论是从竞争压力、
社会治理或是使用频率上两者都区别较大。本文以新加坡某时间段经过处
理后的数据为基础,以此分析新加坡共享单车的一些基础情况。

二、 研究目标与研究方法
1. 研究目标
⚫ 为了更好的理解和学习运输经济学中边际效应,回归模型,因素影响弹
性等概念,以及着眼于经典的需求预测问题,研究共享单车需求的影响
因素与模型,本次大作业核心在于基于新加坡的共享单车数据对共享单
车的需求量进行多方面的探讨与分析,建立合适的回归模型;
⚫ 根据提供的信息,数据将整个新加坡国土分为了若干个地块,数据研究
时间定在 2017 年 4 月 26 日-2017 年 5 月 4 日这一段时间,统计到了每个
地块在这个时间的里每个小时时间、被使用的单车数,投放的单车数,
这是关于单车使用情况的基本数据,地块背景数据包括:公有、私有住
宅建筑容积率,商业、工业建筑容积率,自行车道总长,公交站点总
数,交叉口总数,路段总数,距离最近地铁站距离,距离市中心距离,
该小时内降雨量、温度,是否有五一免费骑和周末免费骑活动等,以及
数据可靠性度量值香农熵这些变量。
⚫ 依靠上面提供的信息,需要依次按照逻辑分析:共享单车使用量按照时
间(以日/天为单位)的变化规律,选取一段时间分析投放量与使用量的
关系,进一步拟合投放量和使用量的函数,探究边际效应变化(递增/递
减);根据提供的众多有可能影响共享单车使用量的因素,选取合适的
因素,进行一定处理,构建合理的回归函数以预测共享单车使用量,并
估计选取的变量对使用量的弹性影响;
⚫ 对构建的模型进行一定的分析,并根据自己的探究过程,结合运输经济
学知识,再次评析共享单车市场
2. 研究方法
⚫ 工具选取:
为了实现上述目标,主要需要进行探究变化规律,探究变量间的关系,
建立回归模型等数据分析,选择 Rstudio 作为主要的分析工具,Rstudio 具有
强大的数据处理功能以及多种回归函数模型及配套功能,方便分析的进行
⚫ 研究步骤:
由于目标需要拟合模型,建立预测需求模型,并且有多个变量,因此研
究过程需要不断进行试错与比较,并且截止本文写作时得到的模型也仅是目
前本人主观评价的一个模型,仍需要不断改进,本文仅作为研究过程的记
录。

三、 研究过程
1. 时间变化规律
⚫ 按照时间变化规律
忽略日期的变化,求出相同时间内使用量的平均值,得到 24h 内使用量随时
间变化的规律:

从图中可以看出:24h 内使用量主要有两个峰值:在早上 8:00-9:00 和晚上


19:00-20:00 分别对应早高峰上班和晚高峰下班,说明共享单车在这两个时间
段里需求量较高;
忽略小时的变化,求出这 9 日内使用量随天数的变化规律:
由该图可以看出来大致形状符合山峰,具有一个峰值,在 4.26-5.1 时间内
逐渐上升,在 5 月 1 日达到了顶峰,后面逐渐下降。说明共享单车在节假日使
用量较高,越临近五一使用量越高。
单独将五月一日的数据拿出来,绘制该单日 24h 使用量变化:

可以看到该图与平均后的 24h 变化规律吻合度很高,说明每日的变化规律是普


适的,进而说明连续的多日小时变化具有周期性,而实际研究结果也确实是这
样的。
⚫ 上述分析说明了共享单车使用量随每日的时段和日期变化的规律,我们
将供应量作为分母,使用量作为分子,计算共享单车的使用率的不用变
化规律,绘制如下图:

很容易发现三幅图和使用率的变化基本吻合,说明供应量基本变化不大,或
者需求量变化比供应量变化得多。
2. 投放量与使用量关系
要探究投放量与使用率之间的关系并拟合计算边际效应规律,不能直接在原
始数据中进行关系的建立,因为原始数据数据非常多,包括所有地块在这九天
24 小时所有的数据,并且使用量还受多种因素影响(如日期、时段等),要探
究出投放量与使用量的关系就要对数据进行合适的聚合整理并找到合适的模
型,得到较好的拟合效果。

数据处理:收到上一步研究变化规律的启发,可以将不同天数相同小时的数
据进行整合就平均(我们定为 DATAHOUR),消除日期的影响,可以将每一
天所有小时所有地块的数据相加求平均(我们定为 DATADAY),可以消除地
块因素和时间段的影响,也可以将同一地块在这 9*24 小时的数据相加求平均
(我们定位 DATAPLACE),消除所有时间因素的影响。我们以拟合后的 R-
squared(拟合度)作为衡量拟合效果的标准,做出一下尝试:
⚫ 第一次尝试
以 DATAHOUR 为基础,以线性回归作为模型,拟合效果如下:

由图像就易知两者之间没有明显关系,拟合失败。
⚫ 第二次尝试
以 DATAPLACE 为基础,观察散点分布后选择多项式回归模型,拟合结果
如下:

(根据拟合度,在不同的阶数中进行选择)

这里选择的阶数为 4,虽然更高阶得到的拟合度较高,但是此时曲线更
加圆滑。由图可以观察到其实此时拟合的效果仍不太好,大部分点较为集
中,不太符合曲线的走势。
⚫ 第三次尝试
以 DATADAY 为基础,观察图像的,发现整体相关度趋势较好,选用指数
函数回归模型,拟合得到下图:

此图明显可以看到拟合效果较好,散点均匀的分布在回归曲线两侧,但
是此时是下凸函数,边际效益递增,不太符合逻辑规律
⚫ 第四次尝试

由于 DATADAY 两个变量相关度较好,依旧选取该数据作为基础,改变
拟合回归模型,使用对数函数作为基础,拟合得到图像。同样可以看出这样
拟合的结果也较好,散点分布在回归曲线两侧,曲线圆滑,且随供应量增
加,需求量增幅减小,基本符合要求。
⚫ 拟合结果总结

经过多次尝试,得到了符合要求的拟合结果,采用对数回归模型:y=a *
log(b * x),其中 x 为供应量,y 为预测需求量。拟合结果为 a=3.287e+04,
b=6.298e-06,对于该模型,对其求二阶导数,可知当 a 大于零时,二阶导数小
于零,说明 y 随 x 增大,增幅减小,也就是说共享单车的需求量随供应量增加
而增加,但是增幅减小,也就是边际效益递减,对于边际效益递减的含义在此
情景中的含义就是:共享单车的使用量会随供应量的增加而增加,但是因为供
应量逐渐接近饱和,或是使用率较低,交通空间有限,交通建设条件限制等因
素,使用率的增加速度会变慢,也就是增幅下降,这就符合边际效益递减。
而对于此题中使用边际效益递增函数(指数函数)拟合同样效果好可能是以
下原因:DATADAY 数据较少,只有 9 个点,因此符合递增趋势的非线性函数
基本都能拟合得较好,因此要改进研究的话就需要更多的数据点进行拟合,才
能看出什么样的函数更适合该趋势。或许提供 30 天或者 300 天的数据绘制出来
的散点图,用下凸函数拟合的结果就不太理想了。

3. 建立预测模型
1) 问题分析:
建立模型之前首先要对其进行分析:问题是探究各因素对共享单车使用量
的影响,那么就要明确几个问题:一是各因素是哪些因素,是表格提供的 16 个
要素都作为影响因素吗,还是只选取其中某一些要素作为变量呢,如果要选
取,应该选取哪些呢?二是这些因素是怎样影响的呢,他们在模型中应该以怎
样的姿态出现才能作用于因变量呢?三是最关键的问题:应该选取什么模型来
拟合呢?
根据以上分析的逻辑顺序,我展开了以下研究。
2) 变量分析与选取:
在提供的数据中,有供应量,地块的公有、私有住宅建筑容积率,商业、工
业建筑容积率,自行车道总长,公交站点总数,交叉口总数,路段总数,距离
最近地铁站距离,距离市中心距离,该小时内降雨量、温度,是否有五一免费
骑和周末免费骑活动以及这一组数据的可信程度(香农熵)。满打满算此处有
16 个变量,而将 16 个变量拟合到一个模型中,不仅对模型的要求高,而且根
据研究和实验结果来看,拟合因素越多,某种程度上结果越不准确,因此想到
了将这些结果进行聚类:将他们归类到不同影响共享单车使用量的类别下面。
根据研究要求以及生活常识分析,影响因素主要分为:投放量、交通基础设
施、城市建成环境、天气以及额外激励活动也就是此处的两种免费骑活动。此
处注意到一点,根据第一大点的分析,不同的日期和时刻都影响到使用量的变
化,因此要将这两点考虑进去。
综合这些分析,首先将变量进行大致聚类:公有、私有住宅建筑容积率,
商业、工业建筑容积率都是容积率,这四类都属于表示该地块建成条件的指
标,并且四个容积率都是正向影响共享单车的使用量,可以整合为一个指标;
自行车道总长、公交站点总数、交叉口总数、路段总数都是都是表示该地块交
通基础设施的变量,经过研究,这四个变量也是正向促进共享单车使用量的指
标,也可以整合为一个变量。此时上述 8 个因素已经整合为 2 个变量,剩下的
到最近地铁站距离和距离市中心的距离按照实验反馈是负向影响使用量,并且
影响效果不同,此处选择保留着两个因素作为两个变量。降雨量、温度、免费
骑活动都作为单独变量作用于模型,这里遵循的原则是,不能盲目整合相似性
不够高的影响因素,这样会创建一些没有实际意义的变量或者掩盖某些变量的
影响力。
另外,我们还要考虑增加变量。上述变量都是地块的基本属性以及环境条
件,而根据讨论可知,时刻和日期也是影响因素之一。因此,为了体现时间的
影响和模型的简洁性,我增添了“judgeday”和“judgetime”两个变量,如果该条数
据处于这 9 天使用高峰:4 月 30 日和 5 月 1 日,则 judgeday 变量取 1,其余情
况取 0;若该条数据记录时刻处于当日使用时刻高峰:19 时或 20 时,则
judgetime 变量取 1,其余情况取 0.这样一来就将时间影响使用量的因素用 01 变
量体现,作为模型的变量之二。此时需要注意,这里是为了模型的简便和统
一,所以只对时间因素进行了“高峰影响”的是否判断,并没有将使用量和时间
的规律刻画,选择的区间也较窄,如为其他有促进使用量的时间,也一并作为
没有影响的处理,这也是后续值得优化的地方。
3) 数据变量的处理
观察原始数据库,数量庞大,变量众多,量纲复杂,要进行以下处理:
⚫ “judgeday”、“judgetime”变量的设置和筛选:使用以下 R 语言代码实现:
data1$judgeday <- ifelse(data1$DAYS %in% c(1,30), 1, 0)
data1$judgetime <- ifelse(data1$HOURS %in% c(19, 20), 1, 0)
⚫ 变量整合
针对四个容积率:由于有四个容积率数值,分别为公有住宅、私有住宅、
商业建筑、工业建筑,若要整合为一个变量,我采用权重求和:考虑不同容
积率对共享单车使用量的贡献大小(权重),此处根据查阅资料和主观认
识,分别赋予公有、私有、商业、工业四个容积率 0.3、0.3、0.2、0.2 的权
重,求和得到地块“综合容积率”的数据,命名为“ratio”.
针对四个交通建设因素,由于自行车车道总长这一因素和其他三个因素有
不同的量纲,无法放在一起考量,因此将此四个数据进行标准化,这里采用
Z-score 规范化:

处理后的数据遵循 0 为均值,1 为方差的分布,消除了量纲的影响。在进行


整合时,考虑到后面三个变量都是表示个数的变量,先将其分别赋予 0.3,
0.3,0.4 的权重进行权重求和,得到的数据标准化后再赋予 0.6 的权重,与
0.4 权重的自行车道长度进行求和,最后得到关于交通水平的衡量指标,命名
为“ts”。
⚫ 基本整合完毕后,将数据条目进行整合,由于以及将日期和时间的影响
考虑到了其中,且这写变量除降雨量和温度外都是地块的属性因素,每个小
时的数据都是相同的,因此采用上述 DATAPLACE 的方式,将相同地块的所
有小时数据进行整合求平均,(这里将温度和降雨也暂且求平均,后续再进
行单独分析)这样就得到了每个地块平均的使用量和影响因素的数据。然后
将影响因素标准化,消除量纲的影响。
⚫ 在标准化的时候注意到数据中的 01 变量也进行了标准化处理,这是因为
在求地块数据平均的时候,例如 judgehour 平均后表示,统计数据种该地块平
均有多少个数据处于高峰小时,是具有促进使用量的实际意义的,因此可以
求平均并标准化作为变量。
4) 基本回归模型的选择
由于影响因素较多,我们无法从一开始就得出非常合适的模型,只能通过不
断地尝试和试错确定相对合适的模型。
想法一:单变量拟合叠加
根据解决问题的普遍规律,由繁到简,由陌生到熟悉,任何复杂的问题都是
由一个一个简单的问题叠加起来的。根据这个思路,我们知道共享单车是多个
因素共同作用的情况下得到的结果,是否可以探究每个因素各自对使用量的回
归关系,然后根据回归关系拟合的优劣和相关性(拟合度和相关系数)设置权
重,将多个因素的贡献权重相加得到预测使用量,暂且把这个模型称为单变量
因素权重叠加预测模型,并继续探究。
首先要探究各个单变量对使用量的影响:将 DATAPLACE 作为数据基础,通
过可视化工具绘制使用量与单一变量的散点图,观察并选用单变量回归模型。
首先分析距离最近地铁站的距离,散点图绘制如下(见拟合曲线图和散点图综
合图):
从散点图大致可以看出呈负相关,选取非线性的指数函数进行拟合:y=a *
exp(-b * x),拟合结果大致如图:

计算其拟合度:

可以看到,散点图中大部分点是集中左下角,只能少数散点是有一定趋势的,
因此根据此趋势拟合的模型对于整体的拟合度是非常低的,经过多次模型的变
换、分析,得到的拟合度都非常低(低于 0.1 甚至低于 0.01),我们继而观察
使用量关于其他因素的散点图分布:

(投放量)
(距离市中心距离)

(综合容积率)

(交通设施指数)
(节假日免费骑、周末免费骑、日期加成、时刻加成)

(降水量)
(温度)
观察这些因素的散点图,并尝试拟合,发现无论是哪个因素,或者选择哪个
变量,拟合效果都很差,拟合度都不到 0.1。
分析原因可知:1.我们的目标本身就是要建立使用量关于多个因素的预测模
型,因此使用量本身就是受多个因素影响的,或许这一段数据点的 x 与 y 遵循
正相关,但是由于另一个变量的影响,下一段的数据点 x 与 y 就遵循负相关
了,因此针对单变量建立模型是无法得到较好的效果的;2.观察这么多散点图
发现,其实散点的分布不均匀,或者说散点的分布更符合概率,也就是说无论
是线性还是非线性,拟合的效果都不高,应该采用概率模型。
想法二:多变量概率分布模型
有了基本的尝试和总结后,发现该预测模型选用概率模型更加符合实际的散
点分布,因此在建立多变量预测模型的时候直接选用概率模型。根据资料的查
阅和文献的参考,负二项分布模型较好的符合多因素对某一变量的影响,因此
决定建立负二项分布。
⚫ 背景和模型原型
“对于某些计数资料,当其服从的 Poisson 分布强度参数 λ 服从 γ 分布
时,所得到的复合分布即为负二项分布,又称为 γ-Poisson 分布(gamma-
Poisson distribution)。”
“在负二项分布中,λ 是一个随机变量,方差 λ(1+kλ)远大于其平均数。
其中,k 为非负值,表示计数资料的离散程度。当趋近于 0 时,则近似于
Poisson 分布,过离散是负二项分布相对于 Poisson 分布的重要区别和特点,
可用拉格朗日算子统计量检验资料是否存在过离散。若数据服从 Poisson 分
布可以采用 Poisson 回归;当计数因变量服从负二项分布时,可采用负二项
回归进行回归分析,其参数估计、假设检验与 Poisson 回归相似。”
假设 yi 表示单位时间内事件发生的频数,呈现负二项分布,则模型方程如
下:

ln⁡(𝑦ˆ𝑙 ) = log⁡(𝑛𝑖 ) + 𝛽0 + 𝛽1 𝑋𝑖1 + 𝛽2 𝑋𝑖2 + ⋯ + 𝛽𝑚 𝑋𝑖𝑚 + log⁡ 𝑘𝑖

⚫ 适用条件
负二项回归至少需要满足以下 2 个条件:
条件 1:各观测行间是非独立的,事件的发生有空间聚集现象。
(符合散点图的分布情况)
条件 2:因变量存在过离散现象,即方差远大于均数。
(根据计算满足条件)
⚫ 模型拟合
在模型拟合的时候要考虑变量的选择对模型拟合效果的影响,不同的变量是
否要放入模型中呢?放入不同的变量对模型拟合的效果有何影响呢,不同的变量
在模型中起到的作用如果呢?将不同的变量进行组合,递增放入模型中拟合计
算,尝试,得到下表:
(表一)
AIC MRTDIST DISTCEN RATIO TS TOTAL LABORFREE WENDFREE judgeday judgetime RAIN TEMPO
系数 Pr(>|z|) 系数 Pr(>|z|) 系数 Pr(>|z|) 系数 Pr(>|z|) 系数 Pr(>|z|) 系数 Pr(>|z|) 系数 Pr(>|z|) 系数 Pr(>|z|) 系数 Pr(>|z|) 系数 Pr(>|z|) 系数 Pr(>|z|)
2949 √ √ √ √
2890.1 √ √ √ √ √
2864.9 √ √ √ √ √ √ √
2853.8 √ √ √ √ √ √ √ √ √
2853.4 √ √ √ √ √ √ √ √ √ √
2811.2 -0.26769 2.16E-06 0.2452 3.90E-08 0.0725 0.07939 0.13006 0.000626 0.19002 < 2e-16 1.4214 0.00315 0.8231 0.0111 -0.19664 0.02716 0.13047 4.83E-06 0.02152 0.6825 0.31008 1.59E-12
2809.4 √ √ √ √ √ √ √ √ √ √
2812 √ √ √ √ √ √ √ √ √ √ √
2813.3 -0.27408 1.02E-06 0.24496 2.64E-08 0.14737 3.98E-05 0.19135 < 2e-16 0.1338 1.39E-06 0.29621 < 2e-16
(对于负二项分布拟合模型,以 AIC 值(赤池信息准则;越小越好)作为评判拟合
效果的参考标准,以 Pr(>|z|)值作为判断是否小于给的置信水平,以 0.05 为基本
的界限,一般越小说明该变量在模型中是显著有影响的,也就是应该作为变量)
由上表可知在逐步加入变量时,AIC 逐步减小,说明变量的加入使模型的拟合
程度变好了,但是哪些是必须加入的,哪些是可以不加入的呢?观察 Pr(>|z|)值,
可以看到 ratio 因素,也就是综合容积率指标;RAIN 指标,也就是降雨量这两个
是不达标的,也就是影响一定程度上影响拟合效果。此外两个免费汽车活动指标
以及判断日期指标的 Pr 值也较大,将这几个变量提出后得到最后一行的自变量
和系数估计值。

四、 结果分析
⚫ 模型建立:
根据上述结果可以选择所有已经标准化的因素作为自变量,也可以根据需求剔
除降雨量和容积率两个变量,或者剔除所有具有较大的 Pr 的因素,也就是以下
两组自变量类:
(1)投放量+综合容积率+交通指数+地铁站距离+市中心距离+降雨量+温度+五
一免费活动+周末免费活动+日期高峰判断+时刻高峰判断;
(2)投放量+交通指数+地铁站距离+市中心距离+温度 +时刻高峰判断;

建立形如下式的负二项概率回归模型(各项系数见表一)
𝛽0 + 𝛽1 𝑋𝑖1 + 𝛽2 𝑋𝑖2 + ⋯ + 𝛽𝑚 𝑋𝑖𝑚 + log⁡ 𝑘𝑖

⚫ 弹性分析:

根据弹性的定义,即自变量变化一个单位引起因变量的变化通常为自变量的均
值乘以估计的系数,而此处因为将所有自变量都标准化,且符合均值为 0、方差
为 1,不妨就将系数作为弹性的大小衡量,系数绝对值越大,说明对使用量的弹
性越大。由表可知,两个免费骑车活动的估计系数绝对是值最大的,弹性最大,
也就说明在该模型的估计下,是否有免费汽车活动对共享单车的使用量影响最大,
符合运输经济学中效用的原理和一般人出行的行为心理。

参考文献:

[1] Shen, Y., Zhang, X. and Zhao, J., 2018. Understanding the usage of dockless bike
sharing in Singapore. International Journal of Sustainable Transportation, 12(9),
pp.686-700.

[2] Shen, Y., Zhang, X. and Zhao, J., 2021. The mobility patterns of dockless bike
sharing: A four-month study in Singapore. Transportation Research Part D:
Transport and Environment, 98, 102961

You might also like