You are on page 1of 4

第 29 卷 第 14 期 电子设计工程 2021 年 7 月

Vol.29 No.14 Electronic Design Engineering Jul. 2021

基于 PaaS 技术的大数据云化平台分析
符晓洪,柳 羿,何宽政,张升平,曾麒杰
(深圳供电局有限公司,广东 深圳 518000)

摘要:移动互联网环境下,对海量用户数据行为的研究,可以提升用户数据的应用价值,促进商业
模式的创新。大数据环境下为满足对内对外应用支撑能力以及数据开放共享能力需求,在 PaaS 技
术应用下完成多用户架构,建构相应的大数据云化平台,支撑大数据平台能力开放建设。在 PaaS
技术下完成大数据云化平台的建构,完成整体架构,实现能力集成、多应用类型的分层调度、多租
户及其资源调度管理以及全局优化的 YARN 调度技术,在完成的平台应用实践分析中发现,这一
系统不但满足了相应的技术需求,同时在硬件资源准备时间、开发工具准备时间、数据准备时间、
应用部署时间及资源利用率方面也具有显著效果,和传统系统具有明显差异。
关键词:PaaS 技术;大数据;互联网;云化平台
中图分类号:TN98 文献标识码:A 文章编号:1674-6236(2021)14-0034-04
DOI:10.14022/j.issn1674-6236.2021.14.008

Analysis of big data cloud platform based on PaaS technology

FU Xiaohong,LIU Yi,HE Kuanzheng,ZHANG Shengping,ZENG Qijie


(Shenzhen Power Supply Bureau Co.,Ltd.,Shenzhen 518000,China)

Abstract: In the mobile Internet environment,the research on the behavior of massive user data can
enhance the application value of user data and promote the innovation of business model. In order to meet
the needs of internal and external application support capacity and data opening and sharing capacity in
big data environment,multi ⁃ user architecture is completed under PaaS technology application,and
corresponding big data cloud platform is constructed to support the capacity opening construction of big
data platform. Under PaaS technology,the construction of big data cloud platform is completed,the
overall architecture is completed,and capability integration,hierarchical scheduling of multi application
types,multi tenant and resource scheduling management,and globally optimized YARN scheduling
technology are realized,in the completed platform application practice analysis,it is found that this
system not only meets the corresponding technical requirements,but also has significant effect in hardware
resource preparation time, development tool preparation time, data preparation time, application
deployment time and resource utilization,which is significantly different from the traditional system.
Keywords: PaaS technology;big data;Internet;cloud platform

在 当 前 通 信 技 术 的 发 展 中 ,已 经 确 定 了“ 大 数 理。在业务发展进程中,业务量在逐渐加大,也促进
据、超细分、微营销”发展方向,基本建构了跨域数据 了平台接入相关数据量的增长,大数据平台中也出
融合和能力共享的大数据集中平台,在云化 ETL 基 现了电商、政企客户等数据。数据量的激增,对于大
础上完成数据采集、计算以及处理,建构相应的数据 数据平台的运营支撑工作提出了较大挑战,需要注
采集以及处理平台,以此实现对数据的统一运维管 重提升系统的资源计算、数据资源分析以及数据挖

收稿日期:2020-06-09 稿件编号:202006084 掘能力,实现数据的使用和管理效率。在此需求下,

作者简介:符晓洪(1974—),男,广东深圳人,硕士,高级经济师。研究方向:电气工程及自动化、电力营销。
- 34 -
符晓洪,等 基于 PaaS 技术的大数据云化平台分析

则需要进一步建构一体化架构,以满足一体化运营 数据服务过程中,能够通过多个样本获取相应的规
发展的要求。PaaS 技术下的大数据云化平台建构, 则,例如定制用户组、用户组关联关系以及连续账户
[1-3]
能够有效满足运营商业务发展的相关技术需求 。 期等,在平台的运行中即可以实现对适配数据的自
助获取。标签库产品,主要分为 3 种,具体标签产品
1 系统架构 及其分类见表 1。
在大数据技术和 PaaS 理念的应用下,完成大数 表1 标签产品及其分类
据 PaaS 平台的建构,以实现资源和大数据服务价值 分类 功能
的充分应用。针对大数据采集、存储以及处理等实 ①公共标签
实现对标签树显示以及标签权限管理的支持
现工具服务化,具备大数据平台服务功能。在大数 和行业标签

据组件下,为广大用户建构个性化的大数据分析平 ②个性化
对于规则定义创建、删除以及匹配等具有支持能力
标签
台,以降低企业大数据的部署成本。
级别定义、生命周期以及标签使用建议等,对于租
大数据 PaaS 平台系统框架详情见图 1。 户来讲,所具备的业务需求以及对资源计算熟悉程
度均具有差异, 同时也会结合自身偏好去选择相应
③标签内容 的业务需求, 开放平台在框架层建构中,则需要完
成多样化大型数据计算框架的建构, 以能够满足不
同租户的场景需求, 例如复杂逻辑关联、海量数据
计算以及数据查询等功能

2.2 多应用类型的分层调度
大数据业务系统完整化设计中,主要包括有多种
应用形态,不但要存在有 MapReduce 作业等的框架类
应用,也需要存在有营销门户等普通交易类应用。对
于以上两种类型应用同时实施管理以及调度,作为研
在该研究中提供了两种解决方案[4]。
究重点,
2.2.1 独立调度方式
图 1 大数据 PaaS 平台系统框架
针对不同类型应用采用相应的资源调度器,彼
此 之 间 为 相 互 独 立 关 系 。 Hadoop 集 群 针 对 自 身 资
2 主要技术实现
源采用 YARN 实施管理以及调度,对框架类应用提
2.1 能力集成 供 支 持 ;PaaS 专 门 设 置 将 Kubernetes 作 为 核 心 的 调
在开放平台建构中,能力集成是核心组成部分, 度器,针对普通应用通过管理虚拟机、容器等资源实
可以将其分成工具和组件、标签库产品、数据服务以 施支持 [5]。
及数据处理框架和容器服务 4 个模块。在平台中可 2.2.2 两层调度方式
以为广大用户提供元数据、安全管理、建模以及数据 这一方式则需要先叠加两种类型应用的资源调
质量等相关工具和服务。统一日志服务则是在平台 度器,不但可以实现资源共享,同时也能够针对应用
上完成一站式集中日志收集以及分析服务,有助于 实现统一管理。对于不同租户间的资源则可以显著
提高平台运行和维护工作效率。同时在统一日志管 提升共享程度,在这一需求下则需要应用多层资源
理 服 务 基 础 上 ,可 以 完 成 平 台 相 应 监 控 系 统 的 建 调度方式。例如,Kubernetes 可以是统一的一层资源
构。在统一日志的应用下,实现对不同资源运行状 调度器,YARN/Mesos 可以是大数据应用下的两层资
态、不同公共服务状态和租户相应自我部署状态实 源调度器,详情见图 2。
施分析,从而建构相应的诊断结果。数据服务主要 2.3 多租户及其资源调度管理
为两种,分别是:数据资产管理,重点是针对固定网 多租户概念最早出现在软件领域,即为一个软
络、用户数据及账单、关系圈信息、在线行为日志等 件实例可以对多个用户架构提供服务,其中的各个
相关的数据结构管理;数据采集服务,则是针对租户 用户即为一个租户。如果是多租户可以建构资源高
订阅以及采集样本数据所提供的相关服务过程。在 度共享模式,在显著提升资源利用率基础上,也有助
- 35 -
《电子设计工程》2021 年第 14 期

调度是实现对各种作业的调度,其中主要包括数据
采集、数据交互以及数据处理等,同时对于跨系统作
业依赖以及调度也具有支持作用,可以有效控制作
业优先级以及并发,另外也能够对可视化监控以及
管理功能提供支持作用。
Hadoop 平台下的大数据多租户实现中,则是在
租户方式下实现对 Hadoop 组件 YARN、组件 Thrift 以
及组件 HDFS 的调用,从而通过多租户资源的自动分
图2 两层调度技术方案数据类应用
配管理,实现相应管控。第一,定义最小分配资源、资
于降低资源成本。 源 单 位 以 及 共 享 资 源 ,并 提 供 相 应 的 API;结 合
2.3.1 租户权限管理 Hadoop 的 API 则可以实现 PaaS 管控平台的资源信息
针对租户资源级以及数据集设置相应的权限, 查询以及分配功能。第二,提供数据共享以及安全管
以此实现管理;针对多租户开放能力权限管理,主要 控,针对 Hadoop 应用的忙闲时间能够实现相应的资
是对数据开放、工具开放以及资源开放实施管控,以 源复用,数据保存有且仅有一份;租户间的数据需要
能够提升租户访问资源以及数据等的安全性。其租 实施隔离,禁止出现非法跨系统互访。第三,资源优
户权限管理界面见图 3。 先级控制,结合租户的优先级,实现对相应资源容量
的分配。第四,业务优先级保护,统计分析型离线业
务优先级和清单查询型实时业务相比明显偏低[6-9]。
2.4 全局优化的 YARN 调度技术
在本次系统建构中,提供了全局的 YARN 调度
技 术 ,不 但 提 出 相 应 的 算 法 ,也 提 出 了 任 务 调 度 以
及资源利用率等提升策略。在全局优化调度器的
应用中,内部建构的调度机制和开源调度具有差异
化 ,本 次 的 调 度 流 程 是 从 作 业 到 资 源 的 正 向 匹 配 ,
图 3 租户权限管理界面 在对调度线程实施转换的过程中,可以实时查看作
2.3.2 租户资源调度管理 业过程,结合全局作业以及资源实际情况匹配相应
在租户资源管理中,主要是实现资源分配、数据 的 任 务 ,各 调 度 作 业 过 程 中 均 具 备 有 全 局 资 源 视
隔离以及对安全问题实施控制。作业调度则是针对 图 ,在 此 过 程 中 有 助 于 显 著 提 升 调 度 精 度 ,其 中 全
租户作业优先级以及业务优先级实施控制。如果在 局优化调度如图 4 所示 [10-11] 。全局调度器中引入了
大数据平台多租户以及多系统并存下,实现作业的 专 门 的 调 度 线 程 ,把 调 度 同 心 跳 剥 离 开 ,可 以 有 效
统一调度,有助于显著提升系统运行效率以及资源 防范超大规模集群中的系统心跳风暴问题。和开
有效利用率。统一调度需要实现对集群内所有资源 源调度器相比,优化后的调度器显著提升了系统运
的管控,计算资源以及存储资源均包含其中。统一 行中的利用率、吞吐量以及数据亲和性等 [12-14] 。

图4 全局优化任务调度
- 36 -
符晓洪,等 基于 PaaS 技术的大数据云化平台分析

[3] 杜一磊.PaaS 平台后端管理系统的设计与实现


3 实践检验分析 [D].北京:北京交通大学,2017.
针对建构完成的基于 PaaS 大数据云化平台,实 [4] 赵迪迪.公安大数据云计算平台建设与应用[J].警
施连续 6 个月的应用实践,实际应用中云化大数据 察技术,2017(5):42-45.
PaaS 平台主要业务为畅游业务,以此对建构平台的 [5] 张海峰,董昭,李娟,等.电信运营商大数据能力开
应用性能实施检验分析。通过实践验证,基于 PaaS 放平台建设[J].电信科学,2017(4):189-196.
的大数据云化平台在应用中,能够针对多租户提供 [6] 雷唯.面向智慧城市大数据 PaaS 平台的研究[J].
统一全网数据资源;数据开发过程中,有助于提高了 电子制作,2019(14):38-40,32.
数据开发效率,缩短应用上线周期;平台所具备的弹 [7] 卢楠,耿辉,张金刚.大数据 PaaS 开放平台建设思
性 扩 展 能 力 ,也 能 够 通 过 资 源 应 用 实 现 业 务 突 发 。 路探讨[J].中国新通信,2016,18(4):74-75.
平台的硬件资源准备时间、数据准备时间等方面的 [8] 王志军.中国联通容器化大数据云平台的探索与
应 用 效 果 见 表 2。 从 表 中 可 以 看 出 ,建 构 完 成 的 实践[J].信息技术与标准化,2019(5):66-69.
PaaS 大数据云化平台和传统大数据平台应用相比, [9] 曹汉清,李全彬.基于大数据的用户行为分析平台
具有显著优势 [15-18]。 设计研究[J].软件工程与应用,2019,8(3):141-148.
表2 开发模式对比 [10]刘强,张淼.基于大数据技术的企业综合数据分析
平台[J].通信技术,2020,53(1):127-130.
硬件资 开发工
模式 源准备 具准备
数据准 应用部
资源利用率 [11]曹现刚,张鑫媛,吴少杰.煤矿机电设备运行状态
备时间 署时间
时间 时间 大 数 据 管 理 平 台 设 计 [J]. 煤 炭 工 程,2020,52(2):
1~3 1~3
传统模式 1~3 周
小时
资源独占、利用率 22-26.
个月 个月 级别
大数据 小时 小时 小时 分钟 低资源池化共享,
[12]杨俊艳,樊迪,黄国平.自然资源管理背景下的时空
云化模式 级别 级别 级别 级别 资源利用率低 大数据平台建设[J].测绘通报,2020(1):124-127.
[13]李子乾,朱青,穆松鹤,等.云计算的智能电网大数
4 结 论 据处理平台[J].粘接,2019,40(11):169-173.
通过以上分析得出以下结论: [14]李嘉曾,韩利峰,李丹清,等.基于大数据平台的
1)基 于 PaaS 建 构 的 大 数 据 云 化 平 台 ,能 够 提 EPICS 历史数据归档系统[J].核技术,2019,42(11):
供,实现能力集成、多应用类型的分层调度、多租户 88-94.
及 其 资 源 调 度 管 理 以 及 全 局 优 化 的 YARN 调 度 技 [15]刘洪超,滕鑫鑫,白浩.基于大数据的高校智能就
术,满足移动通信多业务和多用户运行需求; 业平台建设与应用[J].现代教育技术,2020,30(2):
2)基 于 PaaS 建 构 的 大 数 据 云 化 平 台 和 传 统 大 111-117.
数据模式相比,在硬件资源准备时间、数据准备时间 [16]王婧,馨王,陈妮.基于大数据的地方智库平台建
等方面具有显著优势。 设研究[J].现代管理,2018,8(5):480-484.
参考文献: [17]杨学良,陶晓峰,熊霞,等.基于深度森林算法的窃
[1] 吴燕波,薛琴,向大为,等.云平台下的 NoSQL 分布 电行为检测方法研究[J].智慧电力,2019,47(10):
式 大 数 据 存 储 技 术 与 应 用 [J]. 现 代 电 子 技 术, 85-92.
2016,464(9):52-55,60. [18]邓鹏,刘敏.基于改进聚类和RBF神经网络的台区电
[2] 姜明月.云计算平台下的大数据分流系统的设计 网线损计算研究[J].智慧电力,2021,2(10):107-113.
与优化[J].现代电子技术,2016,39(457):36-40,43.

- 37 -

You might also like