You are on page 1of 14

《面向电子商务的大数据存储与分析技术及其应用》

项目总结报告

一、项目概况

项目基本信息:本项目是由东南大学和焦点科技股份有限公司联合承担,立项时间为
2013 年 9 月,项目编号(BY2013073-01),项目负责人为东南大学计算机科学与工程学院东
方。本项目研究经费 210 万元,其中省拨款 30 万元,单位自筹 180 万元。
随着电子商务行业的深入发展,将会产生并积累更大规模的业务数据,同时为了满足用
户日益复杂的查询请求,提高服务质量,电子商务提供商也必将支持更加高效的数据分析处
理操作。此时电子商务将面临 PB 级数据的存储与分析处理,因此是一个典型的大数据处理
应用。近年来,在电子商务数据量不断扩大的同时,相应的数据分析与处理应用也日趋复杂。
基于此,实现电子商务大数据应用的高效执行与处理将面临新的挑战:
(1)如何实现电子商务图数据查询与分析
传统电子商务应用主要进行面向单一对象的数据分析与处理,如面向个体用户的个性化
推荐等,并不支持面向群体对象的数据挖掘与分析;另一方面,目前电子商务数据分析过程
通常基于表结构进行数据的逐行扫描计算,没有考虑全局数据间的逻辑相关性。然而,随着
电子商务数据量的不断增大,数据间的逻辑关系也变得不断复杂化。此时用户信息、商品信
息以及用户行为(购买、访问等)之间具有广泛的时空序列关系,可以建模成大规模图结构
(其中实体可表示为节点,关系可表示为边)
。此时的大数据处理过程可以转化为基于图数
据的查询与分析。因此为了能够利用全局信息进行更加灵活的分析与挖掘,需要提供支持大
规模复杂图数据的查询与分析机制。
(2)如何实现支持流式数据处理的大数据并行计算框架
电子商务数据产生方式通常是流式的,然而传统电子商务应用的数据更新时间往往是非
实时的(以天为单位更新)
,在这种情况下数据的时效性往往得不到保证,而最新的数据在
数据挖掘过程中所表现出的意义可能更为重要。因此面对电子商务产生的海量流数据,对静
态数据的批处理已经难以满足业务需求。为了能够让电子商务数据分析应用更加具有实时
性,需要对不断到达的流式数据进行分析与处理。因此需要提供支持流式数据处理的大数据
并行计算框架及相关技术。
(3)如何实现面向电子商务的大数据高效存储、组织与管理
随着电子商务应用的不断发展,电商平台需要管理的数据容量、速率和价值在持续、快
速增长,底层存储系统也相应地面临严峻的扩展问题;同时由于电子商务数据分析处理过程
中对数据的访问频度各不相同,且随时间变化,极有可能导致局部热点数据过载以及系统负
载不均等问题。为平衡性能、容量、能耗和价格等需求,亟需一种面向电子商务大数据的新
型数据存储架构及数据组织模式,在控制电商平台运维成本同时,让底层存储系统更加高效
化,数据管理更加智能化。
根据以上分析,现有电子商务数据处理技术无法有效满足大数据环境下电子商务的应用
需求,缺乏完整的支持电子商务大数据处理的模型框架以及管理与分析的相关技术。基于上
述需求,东南大学与焦点科技股份有限公司联合承担了江苏省产学研前瞻性研究项目“面向
电子商务的大数据存储与分析技术及其应用”的研究工作,从实现电子商务大数据应用的高
效执行与处理所面临的挑战出发,重点研究面向电子商务的大数据管理与分析技术。具体内
容包含四个方面
1)研究图结构的电子商务大数据处理机制:拟结合电子商务多源数据联合分析及个性
化推荐应用的数据特征,研究基于图结构的新型数据组织模型,将原有结构化、非结构化数
据按照时空特性进行抽象和重组织,形成图数据。结合大规模图数据所具有的内在逻辑关系,
设计面向上层应用的多指标图分割算法,在考虑子图间逻辑关系的前提下降低子图间耦合
性,进而提出通用分布式图查询算法,以支持上层分析和推荐应用。
2)研究电子商务大数据流式处理模型及相关机制:为了满足电子商务多源数据联合分
析及个性化推荐的实时性需求及推荐应用的时效性需求,我们还将基于通用数据并行计算平
台 Hadoop 研究基于数据本地化的流式处理模型,设计数据本地化机制、研究内存管理机制、
设计流水线任务调度机制,为上层电子商务应用提供透明的流式数据支撑平台。
3)研究电子商务大数据处理的自动分级存储架构及数据组织与管理机制:针对电子商
务大数据处理特性,以及不同的存储设备在性能、容量、价格上的不同,研究并设计具有高
度可扩展性、高效性以及自适应性的分级存储系统架构,在此基础上,研究海量电子商务相
关数据的放置算法及数据迁移策略,从而更好地为大数据处理分析提供高效服务。
4)支持电子商务应用的大数据处理平台设计与实现:面向电子商务大规模数据处理的
实际需求,综合运用分布式数据组织管理机制以及流式数据处理机制等上述理论研究成果,
设计并实现大数据处理支撑平台,并与企业现有的电子商务平台进行整合,从而支持个性化
推荐和数据挖掘等典型电子商务大数据应用,并且验证本项目所取得的各项理论成果,与此
同时,通过该系统的示范作用将项目研究成果加以推广。

二、项目实施情况

经东南大学及焦点科技股份有限公司双方协作,本项目成立了以项目负责人为首的校企
联合研发团队共计 15 人,其中副教授 3 人,讲师 2 人,企业工程师 5 人,博硕士研究生 5
人。
经过两年多的产学研合作研究,较系统研究了面向电子商务的大数据存储与分析技术,
成功研制了支持电子商务应用的大数据处理平台原型系统,集成到焦点科技股份有限公司现
有的电子商务平台并实现了示范应用,圆满完成了研发和产业化任务。具体表现在以下几方
面:
1)在基于图结构的电子商务大数据处理方面,结合电子商务多源数据联合分析及个性
化推荐应用的数据特征,本项目研究了基于图结构的新型数据组织模型,将原有结构化、非
结构化数据按照时空特性进行抽象和重组织,形成图数据。结合大规模图数据所具有的内在
逻辑关系,设计了面向上层应用的多指标图分割算法,在考虑子图间逻辑关系的前提下降低
子图间耦合性,进而提出了通用分布式图查询算法,以支持上层分析和推荐应用。
2)在电子商务大数据流式处理方面,为了满足电子商务多源数据联合分析及个性化推
荐的实时性需求及推荐应用的时效性需求,本项目基于通用数据并行计算平台 Hadoop 研究
基于数据本地化的流式处理模型,设计了数据本地化机制、研究了内存管理机制、设计了流
水线任务调度机制,为上层电子商务应用提供流式数据支撑平台。
3)在面向电子商务大数据处理的自动分级存储架构及数据组织与管理方面,针对电子
商务大数据处理特性,以及不同的存储设备在性能、容量、价格上的不同,研究并设计了具
有高度可扩展性、高效性以及自适应性的分级存储系统架构,在此基础上,提出了海量电子
商务相关数据的放置算法及数据迁移策略,从而更好地为大数据处理分析提供高效服务。
4)在支持电子商务应用的大数据处理平台的设计、实现与应用方面,面向电子商务大
规模数据处理的实际需求,综合运用分布式数据组织管理机制以及流式数据处理机制等上述
理论研究成果,设计并实现了大数据处理支撑平台,并与企业现有的电子商务平台进行了整
合,从而支持个性化推荐和数据挖掘等典型电子商务大数据应用。达到了图数据处理加速比、
流式处理加速比、处理响应时间以及平台可扩展性等方面的设计要求,充分验证了本研究的
理论成果的可用性,提升了企业的服务质量和经济效益。
5)项目完成时,共申请发明专利 9 项;软件著作权 1 项;在国内外核心期刊和会议上
发表论文 25 篇,其中 SCI 收录论文 7 篇,EI 收录论文 24 篇。
6)项目研究过程中,培养博士研究生 6 名(张竞慧、王宇翔、周经亚、熊润群、沈典、
史济源),硕士研究生 6 名(施洵、张毅、陈苗、张骏雪、杨业、丁玎)

项目执行期间,焦点科技股份有限公司通过应用面向电子商务的大数据存储与分析技术
技术,为中国制造网平台的运行提供了更好的支持。合计实现新增销售 580 万元,利税 233.5
万元。

三、项目技术情况

本项目主要围绕面向电子商务的大数据存储与分析技术,从基于图结构的电子商务大数
据处理机制、数据流式处理模型及相关机制、电子商务大数据处理的自动分级存储架构及数
据组织与管理机制以及支持电子商务应用的大数据处理平台等四个方面进行研究与开发,具
体技术情况汇报如下:

1) 图结构的电子商务大数据处理机制

 解决的关键技术
结合电子商务多源数据联合分析及个性化推荐应用的数据特征,研究基于图结构的新型
数据组织模型。结合大规模图数据所具有的内在逻辑关系,设计面向上层应用的基于超快技
术的图分割算法,在考虑子图间逻辑关系的前提下降低子图间耦合性,进而提出通用分布式
图查询算法,以支持上层分析和推荐应用。
 研究方法及技术路线
基于超块划分算法的整体工作流程如图 1 所示。给定原始的大规模图数据后,首先将
对大规模图数据进行预划分,形成原子快。原子块根据应用的执行模式组合后得到超块,组
合过程将同时考虑均衡计算负载以及减小网络开销这两个目标。

图 1 基于超块划分的方法

预划分阶段的主要任务是将大规模的图数据通过一定的方法划分为一组原子块。划分的
方法可以采用基于哈希的方法或者聚类的方法。相较于超块组合而言,图数据的预划分阶段
将需要较长的计算时间并消耗大量的计算资源。但是对于同一份图数据而言,预划分操作是
离线进行的并且只会进行一次,因此其开销是可以接受的。
而在线动态超块组合算法相比离线的划分算法而言,则更加快速和高效。该阶段将会利
用预划分阶段产生的原子块来生成超块。相比原始的图而言,原子块的数量远小于原始的图
的顶点,因此在线动态超块组合算法只需要在一个较小的数据集上进行处理。受益于超块组
合这种快速、高效的方法,使得动态为每个应用进行满足应用需求的数据划分成为了可能。
 取得成果及创新点
针对各类图数据处理应用资源需求各不相同的特点,本文提出了面向应用感知的大规模
图数据快速划分方法。提出了大规模图数据处理应用执行模式抽取和分析技术和基于超块思
想的大规模图数据划分方法,通过自适应感知应用的资源需求,动态调整图数据划分策略,
达到加快处理电子商务图数据的目的。

2) 图结构的电子商务大数据处理机制

 解决的关键技术
为了满足电子商务多源数据联合分析及个性化推荐的实时性需求及推荐应用的时效性
需求,我们还将基于通用数据并行计算平台 Hadoop 研究基于数据本地化的流式处理模型,
设计数据本地化机制、研究内存管理机制、设计流水线任务调度机制,为上层电子商务应用
提供透明的流式数据支撑平台。
 研究方法及技术路线
电子商务数据产生方式通常是流式的,然而传统电子商务应用的数据更新时间往往是非
实时的(以天为单位更新)
,在这种情况下数据的时效性往往得不到保证,而最新的数据在
数据挖掘过程中所表现出的意义可能更为重要。因此面对电子商务产生的海量流数据,对静
态数据的批处理已经难以满足业务需求。为了能够让电子商务数据分析应用更加具有实时
性,需要对不断到达的流式数据进行分析与处理。因此需要提供支持流式数据处理的大数据
并行计算框架及相关技术。本项目通过数据本地化、中间数据分发流水线和基于 KVBTree
的内存管理技术提高电子商务大数据流式数据处理执行性能。
在数据本地化及中间数据分发流水线方面,数据本地化技术使得数据提前发送、聚合与
存储;通过使用数据本地化机制,可以使数据发送与聚合同时进行,以提高系统处理速度。
本项目提出基于概率统计的划分方法,是根据数据分布的特点进行划分,追求数据划分的均
匀性,可以保证 StreamMapReduce 各个节点负载的均衡性。有效解决简单 hash 划分法的不
足。另一方面,对于大数据处理,系统瓶颈一般在于 IO,CPU 资源相对较充裕,通过分发
流水线控制与调度,可以一定程度上提高 CPU 的使用率,由于计算结果直接传递到下一阶
段,一定程度上也缓解了当前节点的 IO 负载。具体如图 2 所示。

图 2 中间数据内存分布图

在基于 KVBTree 的内存管理方面,由于 MapReduce 中间结果为<key, list(value)>这一特


殊形式,需要设计特定的适用 B+树才能存放。基于此本项目根据大数据处理中的中间数据
的特性,使用类似 B+树的索引结构管理大规模的中间数据,保证其存储的可靠性、大容量、
高速读写等性能。具体包括相关数据结构的定义,如:树节点结构,数据区结构,缓存区结
构,缓存区信息头结构等等;以及缓存区的建立与管理。具体如图 3 所示。
图 3 针对 key,value 键值对存储的 B+树(KVBTree)

 取得成果及创新点
针对当前 Hadoop 等大数据处理模型在处理流式数据时效率低下的问题,提出了数据本
地化处理、中间数据分发流水线和基于 KVBTree 的内存管理等执行优化技术。上述技术通
过减少计算节点间的数据传输量、减少计算节点间同步等待时间、减少磁盘 IO 开销,达到
加快处理流式数据的目的。

3) 电子商务大数据处理的自动分级存储架构及数据组织与管理机制

 解决的关键技术
针对电子商务大数据处理特性,以及不同的存储设备在性能、容量、价格上的不同,研
究并设计具有高度可扩展性、高效性以及自适应性的分级存储系统架构,在此基础上,研究
海量电子商务相关数据的放置算法及数据迁移策略,从而更好地为大数据处理分析提供高效
服务。
 研究方法及技术路线
为平衡性能、容量、能耗和价格等需求,亟需一种面向电子商务大数据的新型数据存储
架构及数据组织模式,在控制电商平台运维成本同时,让底层存储系统更加高效化,数据管
理更加智能化。为实现上述目标,本项目提出了如图 4 所示的采用异构性感知的动态副本放
置策略的大规模异构 Hadoop 系统模型。
Data-Intensive Applications

HoM I/O requests


NameNode

PoC PoC PoC


Data Acquisition

… … SLRP
… …

Big Data Set VST0 VSTi VSTg

HaM
Configuration

Administrator DataNodes

图 4 基于 SLRP 的异构 Hadoop 系统模型

在此基础上,设计并实现了一个 Hadoop 集群节点的异构性感知模块(Heterogeneity-


,采用节点异构性感知算法(Heterogeneity aware algorithm,简称
aware Module,简称 HaM)
Haag)对大规模 Hadoop 集群节点进行分级管理,形成多层级的虚拟存储域(Virtual Storage
Tier,简称 VST);然后,通过数据块热度监测模块(Hotness Monitor,简称 HoM),采用文
件访问热度感知的复制机制(Hotness-Proportional Replication,简称 HoP)确定其副本因子,
以优化存储资源的利用率;在此基础上,数据副本放置模块(Snake-Like Replica Placement,
简称 SLRP)在每个虚拟存储域内按照 Snake-Like 方式对数据块及其副本进行布局,充分利
用多层级 VST 内节点性能的差异性,尽量把热点数据及其副本分布在高性能的 VST 中,以
此引导 MapReduce 任务集中运行在性能优异的 Hadoop 节点上,并进行 VST 域内的负载均
衡;最后,通过能耗控制模块(Power Control,简称 PoC)管理集群所有虚拟存储域的能耗
开销,并结合基于 SLRP 的数据块副本放置方案,按照一定的策略关闭或开启集群中的节点,
优化 Hadoop 集群的能耗开销。
 取得成果及创新点
针对电商平台需要管理的数据容量、速率和价值在持续、快速增长导致底层存储系统面
临严峻的扩展问题以及局部热点数据过载和系统负载不均等问题,提出了大规模集群节点异
构感知算法,并基于此设计了一种蛇形电商大数据放置策略,在控制电商平台运维成本同时,
让底层存储系统更加高效化,数据管理更加智能化。

4) 支持电子商务应用的大数据处理平台

 解决的关键技术
面向电子商务大规模数据处理的实际需求,综合运用分布式数据组织管理机制以及流式
数据处理机制等上述理论研究成果,设计并实现大数据处理支撑平台,并与企业现有的电子
商务平台进行整合,从而支持个性化推荐和数据挖掘等典型电子商务大数据应用,并且验证
本项目所取得的各项理论成果。
 研究方法及技术路线
采用相关研究成果并基于开源云软件部署相应的研究成果,实现支持电子商务应用的大
数据处理平台,具体架构及各组件间的逻辑交互关系如图 5 所示。底层云计算环境为上层提
供基础设施;数据存储管理层包括数据采集、数据预处理、数据预放置和数据迁移等;数据
处理技术层包括大数据分析、大数据查询和流式数据处理;应用服务层包括应用解析与构建、
电子商务应用集合、任务调度和资源管理。

电 子 商 务 平 台
用户

应用解析与构建 电子商务应用集

个性化推荐 数据挖掘 搜索排行 ...


资源管理
任务调度

并行任务控制器(Map/Reduce)
流式数据
数据采集
大数据 Map 大数据 Map 流式数 Map
查询 分析 中间数据
据处理
中间结果1 中间结果1 数据预处理

在线
……

……


聚集 中间结果2 中间结果2
索 .. .
. .
.
中间结 中间结 中间结
果分组 果分组 果分组 数据预 数据迁
Reduce Reduce Reduce
放置 移

云计算环境 SSD
Ser Ser Ser SCSI/
OS OS …… OS …… SATA
TAP
E

图 5 支持电子商务应用的大数据处理平台架构图

对于数据存储部分,由于电子商务平台的客户量大,用户数据多达 TB 级,为了实现高
效、可靠地数据存取,我们对底层各类存储介质进行自动分级管理,并采用 Hadoop HDFS
文件系统组织存储海量的用户数据。对于数据分析部分,利用图查询技术构建用户数据全局
视图,基于图数据时空序列关系及属性逻辑关系实现两阶段图分割算法和图查询算法,丰富
个性化推荐结果,促进其完整性,同时使得数据挖掘内容更加多样化。此外,为了应对电子
商务中数据流式到达情况,我们对 HDFS 系统进行二次开发,设计基于内存管理的数据本地
化计算、存储机制,实现流式数据的本地化处理,以提供对个性化推荐以及数据挖掘应用中
流数据处理的支持。在任务调度和资源管理部分,我们采用 HadoopMapreduce 处理模型,针
对性地分析电子商务应用的资源使用特点,优化了其中的资源分配方案。在云基础设施层,
我们拟采用开源软件 OpenStack 搭建云计算环境。OpenStack 具有易扩展、较灵活、兼容性
好等特点可以很容易地同其他模块进行相互协作和配合。
 取得成果及创新点
结合电子商务平台的特点,基于东南大学云计算平台,开发完成基于子图匹配的电子商
务推荐、基于流式数据处理的在线聚集查询、大数据分级存储等模块,实现了云计算环境下
面向电子商务的查询和推荐原型系统。通过将该系统与企业现有电子商务平台的集成,完成
了企业数据查询与推荐的实际部署运行,达到了计算(存储)可扩展性、数据处理实时性等
设计要求,充分验证了本研究的理论成果的可用性,提升了企业的服务质量和经济效益。

四、合同任务指标完成情况

在江苏省产学研前瞻性研究项目的资助下,东南大学联合焦点科技股份有限公司开展了
紧密的产学研合作研究,取得了以下研究成果:

1) 主要的技术指标完成情况

 深入研究了基于图结构的电子商务大数据处理技术:提出了大规模图数据处理应用执行
模式的抽取和分析机制。结合大规模图数据所具有的内在逻辑关系,设计面向上层应用
感知的多指标图分割算法,实现了复杂电子商务数据的快速组织与划分。在考虑子图间
逻辑关系的前提下降低子图间耦合性,进而提出通用分布式图查询算法。
 深入研究了电子商务大数据流式处理模型及相关技术: 针对电子商务多源数据联合分
析及个性化推荐的实时性及时效性需求,建立了基于数据本地化的流式处理模型,提出
了数据本地化及中间数据分发流水线技术,基于 KVBTree 的内存管理技术。
 深入研究了面向电子商务大数据处理的自动分级存储架构及数据组织与管理技术:针对
电子商务大数据处理特性,以及不同的存储设备在性能、容量、价格上的不同,建立了
采用异构性感知的动态副本放置策略的大规模异构 Hadoop 系统模型,并提出 Hadoop
集群系统节点异构性感知算法、基于热度感知的数据副本复制机制。
 东南大学和焦点科技股份有限公司结合电子商务的特点,基于所研发的大数据分析处理
技术和东南大学云计算平台,设计并研制出支持电子商务应用的大数据处理平台。
 通过将该系统集成进焦点科技股份有限公司现有电子商务平台进行应用及测试,证明本
项目所研发的支持电子商务应用的大数据处理平台具有可扩展性强、数据访问延迟低、
支持 TB 级数据处理等特点。
(1)在基于图结构的电子商务大数据处理方面,本系统支
持十亿用户规模的图数据数据,并可近实时(秒级)地商品推荐。本系统可扩展性强,
与单机环境相比,4 台服务器以上的集群环境的加速比大于 2.5;
(2)在电子商务大数
据流式处理方面,本系统支持基于流式处理的电子商务数据在线聚集操作,可对 TB 级
电子商务数据近实时(秒级)地进行分析处理。相较于 Hadoop 等采用 Block 方式处理
数据的模型,流式数据数据处理的加速比大于 2;
(3)在面向电子商务大数据处理的自
动分级存储架构及数据组织与管理方面,支持大规模 Hadoop 集群节点的异构性感知,
可形成多层级的虚拟存储域,能够完成 PB 级的电商大数据高效放置。对于热点的电商
大数据能够在秒级范围内完成必要迁移,与现有 HDFS 相比,电商平台任务的执行效率
提升了近 25%;对于低价值的电商大数据,则被自适应地迁移到低级存储层级,有效提
升了存储空间效率,提升幅度超过 30%。充分验证了本研究的理论成果的可用性,满足
了不断扩大的电子商务大数据分析处理应用需求,提升了企业的服务质量和经济效益。
 项目共申请发明专利 9;软件著作权 1 项;在国内外核心期刊和会议上发表论文 25 篇,
其中 SCI 收录论文 7 篇,EI 收录论文 24 篇。
 项目培养博士研究生 6 名,硕士研究生 6。
 焦点科技股份有限公司通过应用面向电子商务的大数据存储与分析技术技术,为中国制
造网平台的运行提供了更好的支持。合计实现新增销售 580 万元,利税 233.5 万元。

2) 申请的国家发明专利

[1] 熊润群,罗军舟,东方,金嘉晖. 一种云数据中心大规模异构集群节点快速定量分级方


法,国家发明专利,受权时间:2016.9,授理号:201610809567.2.
[2] 张竞慧,董坚,罗军舟. 一种基于日志分析的 IaaS 云平台网络故障定位方法及系统,国
家发明专利,受理时间:2016.9,受理号:201610808973.7.
[3] 东方,罗军舟,张毅,王宇翔,徐晓冬. 大数据环境下的流式数据处理方法,国家发明
专利,授权时间:2016.6,授权号:ZL201310287554.X
[4] 东方,罗军舟,沈典. 一种用于云计算环境中防范旁路攻击虚拟机的方法,国家发明专
利,受权时间:2015.4,授权号:ZL201210356355.5.
[5] 东方,罗军舟,金嘉晖. 基于网络带宽估计的云计算任务调度方法,国家发明专利,授
权时间:2014.12,授权号:ZL201210205574.3.
[6] 东方,陈苗,罗军舟,孟宪栋. 高性能计算和云计算混合环境中的动态资源管理方法,
国家发明专利,受理时间:2014.8,受理号:201410410274.8.
[7] 东方,周经亚,罗军舟. 一种基于 DHT 机制的云存储系统的资源动态分配方法,国家
发明专利,受理时间:2014.7,受理号:201410326861.9.
[8] 东方,罗军舟,王巍,黄彬彬.一种基于动态定价策略的多数据中心成本优化方法,国家
发明专利,受理时间:2013.10,受理号:201310519850.8.
[9] 东方,罗军舟,施洵,朱夏,徐晓冬. 电子商务环境下基于云计算处理模式的个性化推
荐方法,国家发明专利,受理时间:2013.10,受理号:201310287555.4

3) 软件著作权登记证书

[1] 东方,施洵,张毅,张骏雪,王宇翔,朱夏. 面向电子商务环境的协同过滤推荐系统软


件 V1.0,计算机软件著作权,登记号:2013SR163273(与焦点科技股份有限公司共同
申请)

4) 论文发表

[1] Shi J, Luo J, Dong F, et al. Elastic resource provisioning for scientific workflow scheduling in
cloud under budget and deadline constraints[J]. Cluster Computing, 2016, 19(1): 167-182.
[2] Zhang J, Chen J, Luo J, et al. Efficient location-aware data placement for data-intensive
applications in geo-distributed scientific data centers[J]. Tsinghua Science and Technology,
2016, 21(5): 471-481.
[3] Dong F, Zhang J, Luo J, et al. Enabling application‐aware flexible graph partition mechanism
for parallel graph processing systems[J]. Concurrency and Computation: Practice and
Experience, 2016.
[4] Shen D, Luo J, Dong F, et al. Stochastic modeling of dynamic right-sizing for energy-efficiency
in cloud data centers[J]. Future Generation Computer Systems, 2015, 48: 82-95.
[5] Zhang J, Luo J, Dong F. Scientific workflow scheduling in non-dedicated heterogeneous
multicluster with advance reservations[J]. Integrated Computer-Aided Engineering, 2015,
22(3): 261-280.
[6] Zhang J, Wang M, Luo J, et al. Towards optimized scheduling for data‐intensive scientific
workflow in multiple datacenter environment[J]. Concurrency and Computation: Practice and
Experience, 2015, 27(18): 5606-5622.
[7] Xiong R, Luo J, Dong F. Optimizing data placement in heterogeneous Hadoop clusters[J].
Cluster Computing, 2015, 18(4): 1465-1480.
[8] Dong F, Luo J, Liu B. A Performance Fluctuation-Aware Stochastic Scheduling Mechanism
for Workflow Applications in Cloud Environment[J]. IEICE Transactions on Information and
Systems, Vol.E97-D, No.10, October 2014, 2641-2651
[9] Wang Y, Luo J, Song A, et al. OATS: online aggregation with two-level sharing strategy in
cloud[J]. Distributed and Parallel Databases, 2014, 32(4): 467-505.
[10] Luo J, Jin J, Shan F. Standardization of Low-Latency TCP with Explicit Congestion
Notification: A Survey[J], IEEE Internet Computing, vol. 21, no. 1, pp. 48-55, Jan.-Feb. 2017.
[11] Shen D, Luo J, Dong F, et al. AppBag: Application-Aware Bandwidth Allocation for Virtual
Machines in Cloud Environment[C]//Parallel Processing (ICPP), 2016 45th International
Conference on. IEEE, 2016: 21-30.
[12] Shi J, Dong F, Zhang J, et al. Resource provisioning optimization for service hosting on cloud
platform[C]. Computer Supported Cooperative Work in Design (CSCWD), 2016 IEEE 20th
International Conference on. IEEE, 2016: 340-345.
[13] Liu Z, Dong F, Zhang J, et al. A Client-Side Directory Prefetching Mechanism for
GlusterFS[C]. IEEE International Conference on Systems, Man, and Cybernetics (SMC), 2016:
3942-3947.
[14] Zhou P, Dong f, Xu Z, et al. ECStor: A Flexible Enterprise-oriented Cloud Storage System
based on GlusterFS[C]. 2016 Fourth International Conference on Advanced Cloud and Big
Data. IEEE, 2016: 13-18.
[15] Jin J, Khemmarat S, Gao L, et al. Querying web-scale information networks through bounding
matching scores[C]. Proceedings of the 24th International Conference on World Wide Web.
ACM, 2015: 527-537.
[16] Yang Y, Dong F, Luo J. Computing service Skyeube for web service selection[C]. Computer
Supported Cooperative Work in Design (CSCWD), 2015 IEEE 19th International Conference
on. IEEE, 2015: 614-619.
[17] Shi J, Dong F, Zhang J, et al. Two-Phase Online Virtual Machine Placement in Heterogeneous
Cloud Data Center[C]. Systems, Man, and Cybernetics (SMC), 2015 IEEE International
Conference on. IEEE, 2015: 1369-1374.
[18] Zhang J, Dong F, Shen D, et al. Superblock: An Application-Aware Dynamic Partition Strategy
for Large-Scale Graph[C]. 2015 Third International Conference on Advanced Cloud and Big
Data. IEEE, 2015: 167-174.
[19] Wang Y, Luo J, Song A, et al. A Sampling-Based Hybrid Approximate Query Processing
System in the Cloud[C]. 2014 43rd International Conference on Parallel Processing. IEEE,
2014: 291-300.
[20] Jin J, Khemmarat S, Gao L, et al. A distributed approach for top-k star queries on massive
information networks[C]. 2014 20th IEEE International Conference on Parallel and Distributed
Systems (ICPADS). IEEE, 2014: 9-16.
[21] Shi J, Luo J, Dong F, et al. A budget and deadline aware scientific workflow resource
provisioning and scheduling mechanism for cloud[C]. Computer Supported Cooperative Work
in Design (CSCWD), Proceedings of the 2014 IEEE 18th International Conference on. IEEE,
2014: 672-677.
[22] Zhang J, Dong F, Shen D, et al. Game theory based dynamic resource allocation for hybrid
environment with cloud and big data application[C]. 2014 IEEE International Conference on
Systems, Man, and Cybernetics (SMC). IEEE, 2014: 1128-1133.
[23] Shen D, Dong F, Zhang J, et al. Cost-Effective Virtual Machine Image Replication
Management for Cloud Data Centers[C]. High Performance Computing and Communications,
2014 IEEE 6th Intl Symp on Cyberspace Safety and Security, 2014 IEEE 11th Intl Conf on
Embedded Software and Syst (HPCC, CSS, ICESS), 2014 IEEE Intl Conf on. IEEE, 2014:
229-236.
[24] Xiong R, Luo J, Dong F. SLDP: A Novel Data Placement Strategy for Large-Scale
Heterogeneous Hadoop Cluster[C]. 2014 Second International Conference on Advanced Cloud
and Big Data (CBD), IEEE, 2014: 9-17.
[25] Chen M, Dong F, Luo J. Dynamic resource management in a HPC and Cloud hybrid
environment[C]. International Conference on Algorithms and Architectures for Parallel
Processing. Springer International Publishing, 2013: 206-215.

5) 人才培养

在人才培养方面,本项目共培养研究生 12 名,其中博士生 6 名(4 人已毕业)


、硕士生 6
名(均已毕业)
。未毕业研究生正对本项目进行后续的研究,以期对理论和技术进行完善,
对原型进行扩展。

项目培养的博、硕士研究生

姓名 学位类型 论文题目 备注

多集群网格环境中面向科学工作流应用的 已毕业
张竞慧 博士
调度研究 2014 年 03 月

云计算环境下面向大数据的在线聚集优化 已毕业
王宇翔 博士
机制研究 2015 年 03 月

已毕业
周经亚 博士 基于 P2P 的云存储服务研究
2013 年 10 月

面向大数据的异构集群存储系统副本放置 已毕业
熊润群 博士
与选择策略研究 2015 年 5 月

预计答辩时间 2017
史济源 博士 云环境下面向科学计算的资源调度管理
年 10 月

面向异构负载大数据应用的虚拟化资源管 预计答辩时间 2017


沈 典 博士
理机制研究 年 06 月

电子商务环境下面向海量数据的个性化推 已毕业
施洵 硕士
荐系统的设计与实现 2014 年 5 月

已毕业
张毅 硕士 大数据环境下的实时流式数据处理技术
2014 年 5 月

高性能计算和云混合环境中的动态资源管 已毕业
陈 苗 硕士
理机制研究 2014 年 06 月

面向大规模图数据处理的虚拟机管理系统 已毕业
张骏雪 硕士
研究与实现 2016 年 06 月

面向电子商务搜索引擎的多属性排序技术 已毕业
杨业 硕士
研究与实现 2016 年 06 月

云环境下基于 MapReduce 的查询优化系统 已毕业


丁玎 硕士
研究与实现 2016 年 06 月

五、项目绩效分析

项目执行期间,焦点科技股份有限公司通过应用面向电子商务的大数据存储与分析技术,
为客户及会员提供了更好的服务体验。合计实现增加销售收入 580 万元,新增利税 233.5 万

元,并形成多项自主知识产权。

项目的顺利实施不仅可以有效提高电子商务企业自身的发展速度,积极推动商业模式与

信息技术的联合创新,实现产业技术改造及节能减排,极大促进我省电子商务产业健康、快

速、稳定地发展;同时通过加大项目成果产业化、商业化和规模化应用力度,使得生产经营

管理方式向网络化、数字化、集约化方向发展,有效促进电子商务产业结构调整和优化升级,

加速形成电子商务产业集群;有助于提高我省市场经济活动效率,有利于中小企业的健康快

速成长,为我省长期持续的经济活力和产业竞争力奠定良好的基础。

六、存在问题、有关建议及下一步研究设想

1) 存在的不足

本项目得到江苏省科技厅的资助,但由于研究时间较紧,项目研究内容多,涉及面较广。
虽然在项目承担单位的共同努力下,取得了较大进展,但基础理论研究深度还需进一步提升。

2) 下一步研究设想

本项目组围绕云计算与大数据领域进行了长期的研究工作,在同焦点科技合作研发期间,
我们在相关领域进行了一些思考和开创性的预研工作。结合电子商务相关特性,我们在未来
阶段将会开展以下方向的研究:
(1) 开展移动云计算领域的研究
现阶段随着移动互联网技术的不断发展,手机等智能终端逐渐成为人们生活中不可或缺
的元素。通过手机,可以更好地感知用户的行为、兴趣等特征,更有利于实现商务智能。然
而随着数据量的不断增大的,单纯使用手机作为数据采集终端、云服务器作为后台计算处理
平台,由于受到网络带宽、计算能力的限制,往往无法达到高效的数据处理目标。为此我们
拟计划开展移动云计算领域的研究,通过研究云端融合协作机制,实现高效的数据处理。
(2) 开展基于 GPU 的大数据处理框架的研究
随着 GPU 的不断普及,越来越多的领域采用 GPU 进行大数据处理加速。为此,我们拟
结合电子商务大数据处理任务的相关特征,研究面向电子商务大数据的 GPU 数据处理框架,
为电子商务大数据的高效处理提供有效保障。

You might also like