城市用水量曲线聚类算法的研究与实现刘春柳

第13 卷第2 期 Vol.13 No.
2
2020 年 6 月 June 2020
城市用水量曲线聚类算法的研究与实现
刘春柳，张征*
（华中科技大学人工智能与自动化学院，武汉 430074）
摘要：准确预测城市用水量可以对智慧水务调度、报警提供支持，预测前对所有用水量曲线进行聚类可以提高
预测的精度。为满足实时性和运行效率的要求，提出基于形态特征的分段聚合近似（shape-based piecewise
aggregate approximation，SPAA）表示方法，同时为解决传统基于欧氏距离的聚类算法无法包含曲线的形状特
征的问题，提出自适应聚类数的基于序列形态相似性的 k-shape 聚类算法。另外，采用一种基于质心的聚类中
心计算方式，提取每类用水量曲线形态。最后，对某水务公司的用水量数据实例进行聚类分析。结果表明，
本文所提的 SPAA-k-shape 算法可以有效降维，减少聚类计算时间，比传统仅考虑欧氏距离的算法更准确。
关键词：市政工程；模式识别与智能系统；曲线聚类；k-shape 算法；基于形态特征的分段聚合近似
中图分类号：TU991.31 文献标识码：A 文章编号：1674-2850(2020)02-0212-09
Research and implementation on curve clustering algorithm for

urban water consumption
LIU Chunliu, ZHANG Zheng
(School of Artificial Intelligence and Automation, Huazhong University of Science and Technology,
Wuhan 430074, China)
Abstract: Accurate prediction of urban water consumption can provide support for smart water
dispatching and alarming. Clustering all the water consumption curves before forecasting can improve the
accuracy of prediction. In order to meet the requirements of real-time performance and operational
efficiency, a shape-based piecewise aggregate approximation (SPAA) method is proposed. At the same
time, in order to solve the problem that the traditional clustering algorithm based on Euclidean distance
cannot include the shape features of curves, a k-shape clustering algorithm based on sequence shape
similarity of adaptive clustering numbers is proposed. In addition, a centroid-based clustering center
calculation method is adopted to extract the curve shape of water consumption from each type of cluster.
Finally, the clustering algorithm is applied to analyze the water consumption data from a water supply
company. The result shows that the SPAA-k-shape algorithm proposed in this paper effectively reduces
the dimension and shortens the clustering calculation time, which is more accurate than the traditional
algorithms that only consider Euclidean distance.
Key words: municipal engineering; pattern recognition and intelligent system; curve clustering; k-shape
algorithm; shape-based piecewise aggregate approximation (SPAA)
0 引言
城市用水量的准确预测可以作为供水管网智能调度的依据，为异常报警提供支持，便于及时发现漏
损、检修[1]。在进行预测训练前，选取形态趋势相似的同类曲线进行训练，是常用的预处理方法。不同
的用户类型用水趋势不同，因此预测前对所有用水量曲线进行聚类尤为必要。
作者简介：刘春柳（1995—），女，硕士研究生，主要研究方向：城市智能化、数据可视化
通信联系人：张征，副教授，主要研究方向：普适计算、物联网与城市智能化、分子计算等. E-mail: leaf@mail.hust.edu.cn
Vol.13 No.2
June 2020 中国科技论文在线精品论文 213
常用聚类方式主要有 k 均值（k-means）聚类[2]、模糊 c 均值（fuzzy c-means，FCM）聚类[3]、谱聚

类 [4]、自组织映射神经网络 [5]、层次聚类及各种改进组合算法，而这些方法基本都是以传统欧氏距离度
量方式作为相似性判据，无法包含曲线的形状特征，对于距离近而形态差距大的用水量曲线，此判据就
不准确了。另外，用户用水量数据采样时间间隔越小，越能实现精细化运营，然而高维度的序列使得计
算时间复杂度急剧增加，因此对序列降维处理也成为预测预处理的重要步骤。常见的时间序列降维方法
主要有分段线性近似（ piecewise linear approximation， PLA）、分段聚合近似（ piecewise aggregate
approximation，PAA）、符号聚合近似（symbolic aggregate approximation，SAX）、基于域变换的表示方
法、奇异值分解和基于模型的表示方法等[6]。PAA 是目前比较流行的时间序列特征表示方法，传统的 PAA
方法[7]主要有三个过程：对原始时间序列进行标准化，将序列平均分段，用子序列均值重构原始序列。
然而该方法仅考虑分段序列的均值信息，未进一步考虑分段数据的分布情况，忽略了数据的局部形态信
息和分布的不确定性，对具有显著形态分布的时间序列不能很好地表示。
针对以上问题，本文提出一种基于曲线形态的降维聚类方法，首先利用 SPAA 方法根据用水量曲线
形态特征及变化趋势，对高维用水量数据进行降维处理，并采用一种改进的新型聚类算法——自适应聚
类数的 k-shape 算法对重构后的序列进行聚类，使用基于序列形态相似性的距离度量（shape-based
distance，SBD）方法度量差异，然后采用一种基于质心的聚类中心计算方式，提取每类用水量曲线形态。
1 基于改进的 SPAA 的自适应 k-shape 算法

本节详细讲解改进后的用水量曲线降维及聚类算法。首先针对 PAA 算法的缺陷提出改进的 SPAA 算
法，将用水量曲线从高维空间映射到低维空间，然后提出一种自适应的曲线聚类算法——基于时间序列
形态相似性的距离度量方式来表征序列间的相似性，自适应地确定最优聚类数。
1.1 PAA 算法的改进
数据时间序列包含形态分布、斜率及极值等信息，另外对数据进行分段后，每段有自己的形态特征，
或上升，或下降，或水平，因此本文在原 PAA 算法的基础上，考虑了各个序列段的波动、斜率，并将起
点和终点作为该序列段的形态特征，以在降维的同时最大限度地保持各个序列段的形态特征及趋势，即
SPAA 算法。对于波动情况，采用爬坡事件衡量[8]，分段序列中最大值与最小值之差|∆x|大于阈值 δ 即为
一个爬坡事件；对于斜率情况，根据曲线斜率变化率计算边缘点个数[9]，若分段序列中某点的左右点的
斜率变化大于阈值 d，则该点为一个边缘点；对于取平均值的子序列，保留首尾点，其他点取均值，以
此保留分段序列的趋势特征。基本步骤如下。
步骤 1 取序列 X 的最大值 xmax 和最小值 xmin，利用式（1）对序列 X 进行归一化处理，处理后的时
间序列为
x − xmin
x′ = . （ 1）
xmax − xmin
步骤 2 将所有序列分成 n/4 段，每段 4 个数据点，统计数据集的爬坡事件个数 a 和边缘点个数 b，
设置阈值 σ1 和阈值 σ2.
步骤 3 若 a＜σ1，b＜σ2，则首尾点保留，其余点取均值；若 a＜σ1，b＞σ2，则用极小值和极大值
替代；若 a＞σ1，b＜σ1，则用极大值和极小值替代；若 a≥σ1，b≥σ2，保留原数据。
步骤 4 判断维度是否达到要求。若未达到要求，则扩大阈值，重复步骤 2～4；若达到要求，则输
出序列，最终得到 x 的近似表示 x′′ .
第13 卷第2 期
2020 年 6 月刘春柳等：城市用水量曲线聚类算法的研究与实现 214
为对比 SPAA 算法与 PAA 算法的区别，分别使用 PAA 算法和 SPAA 算法对序列进行重构，如图 1

所示，PAA 算法是对序列进行等分后取均值，虽然大的趋势比较符合原序列，但是损失了边缘和局部信
息，而 SPAA 算法可以很好地捕捉边缘和序列片段首尾趋势，对整个序列是一个很好的近似。
图 1 PAA 算法与 SPAA 算法对比

Fig. 1 Comparison of PAA and SPAA algorithms
a—原时间序列；b—PAA；c—SPAA
a-Raw time series; b-PAA; c-SPAA
1.2 改进的自适应曲线形态聚类算法
对于用水量曲线的聚类方法，传统的距离度量方式适用于很多领域，但是其对于曲线的聚类没有考
虑到平移和位移不变的情况，且对噪声太敏感，鲁棒性不高。另外，序列尺度应该具有不变性，而在 SPAA
过程中已经进行了归一化处理，因此尺度不变性可以保证。基于上述讨论，可以采用互相关方法作为序
列形态相似性度量，其值在[−1,1]，两序列正相关度越高，互相关系数越大：
Cw ( X , Y )
Cn, w ( X , Y ) = ，（ 2）
R0 ( X , X ) R0 (Y , Y )
其中， Cw 为互相关系数；w 为序列总和； Cn,w 为归一化后的互相关系数； R0 为完全相似的时间序列不
发生相对位移时的互相关系数值。
另外，提出时间序列相似性判断：
Cw ( X , Y )
SBD( X , Y ) = 1 − max ，（ 3）
w R0 ( X , X ) R0 (Y , Y )
其中，SBD 值范围为 0～2，0 代表时间序列样本完全相似。本文算法利用 SBD 对时间序列进行相似性
量度，并将其作为类簇划分的依据。
传统的 k-means、FCM、k-shape 等聚类算法，均需要自行确定聚类数。然而在实际应用过程中，对
于未知聚类情况很难给定聚类数，且给定过程没有可靠依据，不合理的聚类数将会导致预定的划分结果
与其真实结构产生严重偏差。因此，需要经过聚类结果的有效性验证才能确定理想的聚类数。另外，聚
类中心也应该代表这一类序列的曲线形态特征，传统 k-means 是通过计算每类各序列相对应数值的算术
平均值来提取每类的聚类中心，然而这种方式忽视了形态特征。
Vol.13 No.2
聚类中心的目标是找到与每类序列平方和最小的序列，根据时间序列相似性判断提出基于质心的时
间序列聚类中心计算方法，确定聚类中心：
C k∗ = argmin ∑ u ∈P SBD(C k , ui )2，（ 4）
i k
Ck
其中， C k* 为迭代最终的聚类中心； C k 为利用该方法提取的聚类中心； ui 为用水量序列； Pk 为第 k 类聚

类数据集合。
由此可以得出聚类中心计算公式：
μ∗k = argmax μTk ∑ u ∈P (ui uiT ) 2 μ k ，（ 5）
i k
μk
其中， μk* 为迭代最终的聚类中心； μk 为所提取的聚类中心。

为得到理想的聚类效果，需要数据分类达到以下要求：1）不同类别中心之间的距离应尽量达到最大；
2）类内不同数据样本之间的距离应尽量达到最小。由此思想，根据以上推导，k-shape 算法具体步骤如下。
步骤 1 初始化聚类数 k=2，设定最大 kmax，初始化聚类中心 C k 为第一条曲线值；
步骤 2 利用式（3）依次计算数据集中每一条用水量曲线 ui 到各类中心 C k 的距离 SBD，将 ui 归入
到 SBD 之和最小的那一类中；
步骤 3 利用式（5）提取每类聚类中心，更新聚
类中心，重复步骤 2～3，直到最大迭代次数 kmax 或聚
类中心变化小于阈值 ε，计算所有曲线的 SBD，加和，
记为 DSBD ，进入步骤 4；
步骤 4 k=k+1，重复步骤 2～3，直到 k 达到最
大值 kmax .
整个 SPAA-k-shape 算法流程如图 2 所示。
2 应用实例与结果分析
实验在 MAC 操作系统上运行，Intel Core i7，16 G
内存的计算机上进行，编码在 PyCharm 上完成。动态
时间弯曲（dynamic time warping，DTW）的研究[10]
指出，在现有的时间序列相似性度量方法中， DTW
距离度量方法的综合表现最佳，因此本文分别对比了
基于传统欧式距离的 k-means 算法、DTW 算法及本文
的 SPAA-k-shape 算法，并对结果进行了相应分析。
2.1 用水量原始曲线分析
要得到比较客观的聚类结果，在正式处理前，往
往需要结合各种实际情况对原始用水量的规律做出
分析，并根据分析的特征对原始数据进行前期处理，
以更好地进行分类及预测。图2 SPAA-k-shape 算法流程图
很多城市用水量预测中，在特征中会加入各种相 Fig. 2 Flowchart of SPAA-k-shape algorithm
第13 卷第2 期
关因素，如气候、温度、节假日、生活条件等，但这些影响因素复杂、不确定性很高，且各因素影响的
结果其实已经体现在用水数据中，故在短时用水量预测中不宜添加其他影响因素，因此在提取聚类特征
时也仅考虑各流量计的流量数据。对以往大量历史用水数据观测研究可以看出，城市短时用水量曲线呈
现周期性变化的规律，但是也存在很多异常数据。有些异常流量计会出现流量波动、急剧下降或上升等
情况，甚至会出现负值，因此对 0 值和负值的数据进行清洗，是保证聚类可靠性的前提。
数据集来自某智慧水务公司，包含每隔 5 min 的用水流量。流量计覆盖地较广，由于地理位置及职
能的不同，呈现出不同的用水趋势，且部分流量计有停用或异常状态。在降维前先对数据进行预处理。
1）清洗数据：当缺失、异常的数据达到用水量曲线数据总量的 10%或以上，剔除该条用水量曲线，
且对其余用水量曲线的缺失及异常数据进行修正。
2）数据标准化处理（即 SPAA 第一步）：采用极值归一化方法，将用户用水量数据压缩在[0,1]之间。
数据清洗把明显的 0 值和负值去除，清除了流量特别异常的曲线。归一化是一种线性变换，不会使
数据“失效”，反而能提高数据的表现，使数据处理更加便捷、快速。
2.2 聚类评价指标确定
很多研究表明，没有一个聚类有效性指标（cluster validity index，CVI）可以完美地评价聚类的有效

[11~12]
性，因此为能够更好地分析聚类效果，本文选择其中 3 个聚类评价指标，轮廓系数 Silhouette
Coefficient（SIL）[13]、Calinski-Harabaz（CH）[14]、Dunn 指数（D）[15]。
轮廓系数：
p−q
SIL = ，（ 6）
max( p, q )
其中，对单个样本来说，p 为与它同类别中其他样本的平均距离，q 为与它距离最近的不同类别中样本的
平均距离；对于一个样本集合，它的轮廓系数是所有样本轮廓系数的平均值。轮廓系数取值范围为[−1,1]，
同类别样本距离越相近且不同类别样本距离越远，SIL 值越高。
类别内部数据的协方差越小越好，类别之间的协方差越大越好，可以用 CH 值来衡量紧密度和分离
度，CH 值越高代表聚类效果越佳。
tr( Bz ) ( z − 1)
CH( z ) = ，（ 7）
tr(W z ) (m − z )
其中，z 为聚类后的类别数；m 为训练样本数；tr 为矩阵的迹； Bz 为各曲线簇之间的协方差矩阵； W z 为
聚类曲线簇内的协方差矩阵。
Dunn 指数表示任意两个簇元素的最短距离（类间）除以任意簇中的最大距离（类内）：
min d (i, j )
1≤i≤ j≤n
D= ，（ 8）
max d ′(e)
1≤e≤n
其中， d (i, j ) 为样本间距； d ′(e) 为本簇内样本与簇间的最远距离。D 越大代表聚类效果越好。
2.3 实例结果与分析
本文选取 2017 年到 2018 年 20 个流量计共 2 400 条用水量曲线，每 5 min 采集一次用水量数据，每天

共 288 个数据。清洗数据，去除异常曲线后，共 2 319 条可用数据。每个流量计都随机生成唯一哈希码，
因此每条曲线都有唯一标识——流量计名+日期组合，以便聚类完成后对应选取用水量曲线。本文算法虽
然在 SPAA 时对序列进行降维处理，但由于后续需要预测每 5 min 的短时用水量，最终聚类呈现的是真
实数据的聚类结果，不影响时序结构，便于后续实现短时预测。
Vol.13 No.2
分别使用 SPAA-k-shape 算法、DTW 算法、k-means 算法对 2 319 条数据进行聚类对比，SPAA-k-shape

算法最佳聚类数为 6，DTW 算法最佳聚类数为 5，k-means 算法最佳聚类数为 4，聚类结果如图 3～图 5 所示。
图3 SPAA-k-shape 聚类结果
Fig. 3 SPAA-k-shape clustering results
a—第一类；b—第二类；c—第三类；d—第四类；e—第五类；f—第六类
a-First class; b-Second class; c-Third class; d-Forth class; e-Fifth class; f-Sixth class
图4 DTW 聚类结果
Fig. 4 DTW clustering results
a—第一类；b—第二类；c—第三类；d—第四类；e—第五类
a-First class; b-Second class; c-Third class; d-Forth class; e-Fifth class
第13 卷第2 期
图5 k-means 聚类结果
Fig. 5 k-means clustering results
a—第一类；b—第二类；c—第三类；d—第四类
a-First class; b-Second class; c-Third class; d-Forth class
从图 3 的结果分析，第一类和第二类曲线是同一流量计的两种用水模式。DTW 将这两个大波峰分在
一起，尽管形状相似，但是对预测来说，用水高值到来的点差距仍然很大，分到一起会导致预测偏差大，
因此 SPAA-k-shape 的聚类结果此时更合适。k-means 则没有考虑任何形态，将形态特征完全不同的曲线
分在一起，无法体现用水模式。对于用水量预测来说，曲线形态就代表用水模式，精确地聚类相同用水
模式的流量曲线对用水量预测起关键作用。
第三类为普通住宅居民用水曲线，数量最多，有 455 条。对于普通住宅居民，早上六点左右，人们
开始活动，直到九点左右，用水量达到峰值，晚上九点左右又一次达到峰值，之后慢慢下降，符合人们
的起居作息时间。
第四类一般是特殊区域休假日的用水量，全天用水处于低值，波动不大；第五类用水非常规律，是
特殊区域的用水特点，SPAA-k-shape 可以将特殊用水模式分离开，而其他两个方法没有考虑形态，将特
殊用水模式曲线与正常用户混在一起，不利于特殊用水模式的流量曲线预测。
最后一类为工业用户用水曲线，整体用水一直处于高值，在凌晨稍有下降，符合工业用户用水模式；
对于特征明显的用水曲线，SPAA-k-shape 由于是基于曲线形态的聚类，可以很好地聚类出同类用水模式
的曲线。因此，本算法所聚类的典型用水曲线形态特征合理，可以很好地反映各类用户的用水模式。
DTW 算法和 k-means 算法的最优聚类数分别为 5 和 4. 对于特征极为不一样的第一类和第二类曲线，
三种算法的提取效果都很好，但是 DTW 和 k-means 仍然忽略了第一类和第二类之间的区别。对于第五
类曲线，DTW 和 k-means 仅考虑距离，忽视了曲线的差异，分类的曲线形态不明确，导致一类曲线包含
两种或多种用水模式。对于用水量曲线聚类及用水量预测问题来说，曲线的形态很重要，直接代表用水
模式，因此，SPAA-k-shape 算法更适用于本研究。
为全面对比 SPAA-k-shape、k-shape、DTW、k-means 这 4 种算法的性能，且保证结果客观，研究对
每种聚类算法运行了 3 遍并取平均值，结果如表 1 所示。
从运行时间看，有 SPAA 降维处理的 k-shape 算法运行速度明显比 k-shape 和 DTW 算法快。而 k-means
算法比较简单，因此运行速度显著比其他算法快，但是从 CVI 来看，k-shape 算法的 SIL、CH、D 比其
他算法更高，SPAA-k-shape 由于降维必然会损失一些特征，但很微小，说明 SPAA 在很大程度上保留了
Vol.13 No.2
特征，而且大幅降低了运行时间。供水工作对时效性的要求高，及时报警可以快速发现问题，有效降低
损失。另外，敏捷、快速感知异常是提高未来智慧水务管理效率的关键，降低运行时间可以更快、更及
时的得到结果，提高预测效率，满足预测结果的实时性要求。权衡综合指标和运行时间，SPAA-k-shape
算法仍然优于其他算法。
表1 SPAA-k-shape、k-shape、DTW、k-means 聚类算法的 CVI 对比
Tab. 1 CVI comparison of SPAA-k-shape, k-shape, DTW, k-means clustering algorithms
SPAA-k-shape k-shape
聚类数 k
时间/s SIL CH D 时间/s SIL CH D
2 6.129 0.664 9 45 331.3 0.052 7 8.276 0.686 2 45 031.8 0.053 8
3 7.277 0.350 0 57 367.7 0.129 4 14.141 0.430 2 56 835.9 0.124 6
4 9.316 0.637 4 62 373.6 0.044 8 19.153 0.658 6 69 668.5 0.045 7
5 11.257 0.743 2 65 705.1 0.054 1 23.211 0.775 0 65 937.6 0.054 4
6 13.135 0.923 7 82 202.5 0.885 7 27.208 0.946 2 82 144.8 0.863 8
7 14.175 0.838 2 73 765.8 0.176 2 33.254 0.831 1 74 031.0 0.190 5
8 16.183 0.810 0 79 520.9 0.055 2 40.386 0.811 2 79 795.3 0.065 5
DTW k-means
聚类数 k
时间/s SIL CH D 时间/s SIL CH D
2 15.452 0.575 0 69 795.3 0.005 4 0.093 0.642 4 80 138.8 0.015 6
3 19.113 0.447 8 57 322.7 0.053 9 0.122 0.703 7 69 151.6 0.169 7
4 25.348 0.350 9 48 198.7 0.163 4 0.147 0.633 7 62 386.7 0.829 0
5 30.175 0.604 1 45 073.4 0.505 1 0.157 0.523 2 55 881.8 0.133 6
6 37.288 0.489 6 35 198.1 0.234 0 0.167 0.613 2 50 068.8 0.034 4
7 48.159 0.458 9 37 322.7 0.094 8 0.172 0.390 7 45 153.6 0.036 0
8 57.746 0.339 0 23 198.7 0.038 8 0.188 0.433 3 41 538.0 0.009 9
3 结论
本文提出了一种基于 SPAA 降维方法的城市用水量曲线形态聚类算法 SPAA-k-shape，来进行用水量
曲线聚类。主要解决了用水量曲线数据维数多、训练时间长及曲线相似性度量难的问题。SPAA 算法不
仅可以降低数据维度，降低算法时间复杂度，而且考虑了数据段波动、斜率及首尾形态趋势，对用水量
曲线特征进行了保留。在此基础上，采用一种可辨识时间序列尺度、位移变化及噪声干扰的聚类算法——
k-shape 算法对降维后的数据进行聚类，并将原始数据基于聚类结果划分为不同类以提取用户用水量特
征。实验证明，该方法降维有效、分类准确，是一种有效的基于曲线形态的聚类算法。
本文算法对用水量曲线形态特性进行了降维及聚类，在此基础上进行用水量预测将是未来研究的方向。
[参考文献] (References)
[1] HERRERA M, TORGO L, IZQUIERDO J, et al. Predictive models for forecasting hourly urban water demand[J]. Journal of
Hydrology, 2010, 387(1): 141-150.
[2] HARTIGAN J A, WONG M A. Algorithm AS 136: a k-means clustering algorithm[J]. Journal of the Royal Statistical Society,
1979, 28(1): 100-108.
[3] BEZDEK J C, EHRLICH R, FULL W. FCM: the fuzzy c-means clustering algorithm[J]. Computers & Geosciences, 1984,
10(2-3): 191-203.
[4] 丁明，黄冯，邹佳芯，等. 改进谱聚类与遗传算法相结合的电力时序曲线聚类方法[J]. 电力自动化设备，2019，39（2）：
第13 卷第2 期
93-99，114.
DING M, HUANG F, ZOU J X, et al. Power time series curve clustering method combining improved spectral clustering and
genetic algorithm[J]. Electric Power Automation Equipment, 2019, 39(2): 93-99, 114. (in Chinese)
[5] 周璞，江志红. 自组织映射神经网络（SOM）降尺度方法对江淮流域逐日降水量的模拟评估[J]. 气候与环境研究，2016，
21（5）：512-524.
ZHOU P, JIANG Z H. Simulation and evaluation of statistical downscaling of regional daily precipitation over
Yangtze-Huaihe river basin based on self-organizing maps[J]. Climatic and Environmental Research, 2016, 21(5): 512-524.
(in Chinese)
[6] 李海林，郭崇慧. 时间序列数据挖掘中特征表示与相似性度量研究综述[J]. 计算机应用研究，2013，30（5）：1285-1291.
LI H L, GUO C H. Survey of feature representations and similarity measurements in time series data mining[J]. Application
Research of Computers, 2013, 30(5): 1285-1291. (in Chinese)
[7] KEOGH E, CHAKRABARTI K, PAZZANI M, et al. Dimensionality reduction for fast similarity search in large time series
databases[J]. Knowledge and Information Systems, 2001, 3(3): 263-286.
[8] 欧阳庭辉，查晓明，秦亮，等. 风电功率爬坡事件预测时间窗选取建模[J]. 中国电机工程学报，2015，35（13）：3204-3210.
OUYANG T H, ZHA X M, QIN L, et al. Modeling on selection of the time window for ramp events prediction[J].
Proceedings of the CSEE, 2015, 35(13): 3204-3210. (in Chinese)
[9] 詹艳艳，徐荣聪，陈晓云. 基于斜率提取边缘点的时间序分段线性表示方法[J]. 计算机科学，2006，33（11）
：139-142，161.
ZHAN Y Y, XU R C, CHEN X Y. Time series piecewise linear representation based on slope extract edge point[J]. Computer
Science, 2006, 33(11): 139-142, 161. (in Chinese)
[10] WANG X, MUEEN A, DING H, et al. Experimental comparison of representation methods and distance measures for time
series data[J]. Data Mining and Knowledge Discovery, 2013, 26(2): 275-309.
[11] AGHABOZORGI S, SHIRKHORSHIDI A S, WAH T Y. Time-series clustering-A decade review[J]. Information Systems,
2015, 53(C): 16-38.
[12] DIMITRIADOU E, DOLNIČAR S, WEINGESSEL A. An examination of indexes for determining the number of clusters in
binary data sets[J]. Psychometrika, 2002, 67(1): 137-159.
[13] ROUSSEEUW P J. Silhouettes: a graphical aid to the interpretation and validation of cluster analysis[J]. Journal of
Computational & Applied Mathematics, 1987, 20(20): 53-65.
[14] MILLIGAN G W, COOPER M C. An examination of procedures for determining the number of clusters in a data set[J].
Psychometrika, 1985, 50(2): 159-179.
[15] DUNN J C. A fuzzy relative of the ISODATA process and its use in detecting compact well-separated clusters[J]. Journal of
Cybernetics, 1973, 3(3): 32-57.
（责任编辑：张媛媛）

城市用水量曲线聚类算法的研究与实现刘春柳

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

城市用水量曲线聚类算法的研究与实现刘春柳

Uploaded by

Copyright:

Available Formats

第13 卷第2 期 Vol.13 No.

Research and implementation on curve clustering algorithm for

常用聚类方式主要有 k 均值（k-means）聚类[2]、模糊 c 均值（fuzzy c-means，FCM）聚类[3]、谱聚

1 基于改进的 SPAA 的自适应 k-shape 算法

1.1 PAA 算法的改进

为对比 SPAA 算法与 PAA 算法的区别，分别使用 PAA 算法和 SPAA 算法对序列进行重构，如图 1

图 1 PAA 算法与 SPAA 算法对比

其中， C k* 为迭代最终的聚类中心； C k 为利用该方法提取的聚类中心； ui 为用水量序列； Pk 为第 k 类聚

其中， μk* 为迭代最终的聚类中心； μk 为所提取的聚类中心。

很多研究表明，没有一个聚类有效性指标（cluster validity index，CVI）可以完美地评价聚类的有效

其中， d (i, j ) 为样本间距； d ′(e) 为本簇内样本与簇间的最远距离。D 越大代表聚类效果越好。

本文选取 2017 年到 2018 年 20 个流量计共 2 400 条用水量曲线，每 5 min 采集一次用水量数据，每天

分别使用 SPAA-k-shape 算法、DTW 算法、k-means 算法对 2 319 条数据进行聚类对比，SPAA-k-shape

You might also like

城市用水量曲线聚类算法的研究与实现 刘春柳

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

城市用水量曲线聚类算法的研究与实现 刘春柳

Uploaded by

Copyright:

Available Formats

第13 卷 第2 期 Vol.13 No.

Research and implementation on curve clustering algorithm for

常用聚类方式主要有 k 均值（k-means）聚类[2]、模糊 c 均值（fuzzy c-means，FCM）聚类[3]、谱聚

1 基于改进的 SPAA 的自适应 k-shape 算法

1.1 PAA 算法的改进

为对比 SPAA 算法与 PAA 算法的区别，分别使用 PAA 算法和 SPAA 算法对序列进行重构，如图 1

图 1 PAA 算法与 SPAA 算法对比

其中， C k* 为迭代最终的聚类中心； C k 为利用该方法提取的聚类中心； ui 为用水量序列； Pk 为第 k 类聚

其中， μk* 为迭代最终的聚类中心； μk 为所提取的聚类中心。

很多研究表明，没有一个聚类有效性指标（cluster validity index，CVI）可以完美地评价聚类的有效

其中， d (i, j ) 为样本间距； d ′(e) 为本簇内样本与簇间的最远距离。D 越大代表聚类效果越好。

本文选取 2017 年到 2018 年 20 个流量计共 2 400 条用水量曲线，每 5 min 采集一次用水量数据，每天

分别使用 SPAA-k-shape 算法、DTW 算法、k-means 算法对 2 319 条数据进行聚类对比，SPAA-k-shape

You might also like

城市用水量曲线聚类算法的研究与实现刘春柳

城市用水量曲线聚类算法的研究与实现刘春柳

第13 卷第2 期 Vol.13 No.