You are on page 1of 28

数据云

产品白皮书

北京东方国信科技股份有限公司版权所有

文档中的全部内容属北京东方国信科技股份有限公司所有,
未经允许,不可全部或部分发表、复制、使用于任何目的。
文档修订摘要
修订 审阅日
日期 描述 修订人 审阅者
号 期

北京东方国信科技股份有限公司版权所有

文档中的全部内容属北京东方国信科技股份有限公司所有,
未经允许,不可全部或部分发表、复制、使用于任何目的。
目录
目录 II
第1章 前言................................................................................................................................1
1.1 编写目的 ...........................................................................................................................1
1.2 背景 ...................................................................................................................................1
1.3 名词解释 ...........................................................................................................................1
第2章 产品简介 .......................................................................................................................3
2.1 产品背景 ...........................................................................................................................3
2.2 产品定位 ...........................................................................................................................3
2.3 产品架构 ...........................................................................................................................4
第3章 产品构成 .......................................................................................................................6
3.1 生产中心 ...........................................................................................................................6
3.1.1 数据开发 ....................................................................................................................6
3.1.2 数据建模 ....................................................................................................................7
3.1.3 数据采集 ....................................................................................................................7
3.1.4 数据加工 ....................................................................................................................7
3.1.5 数据质量 ....................................................................................................................8
3.1.6 元数据管理 ................................................................................................................9
3.2 服务中心 ...........................................................................................................................9
3.2.1 数据资产 ....................................................................................................................9
3.2.2 数据服务 .................................................................................................................. 11
3.2.3 服务目录 ..................................................................................................................12
3.3 运营中心 .........................................................................................................................12
3.3.1 租户管理 ..................................................................................................................12
3.3.2 数据安全 ..................................................................................................................12
3.4 资源中心 .........................................................................................................................13
3.4.1 BCOS 资源管理 .......................................................................................................13
3.4.2 CirroData 数据库 ....................................................................................................15
3.4.3 BEH ..........................................................................................................................20
第4章 典型场景 .....................................................................................................................22
4.1 数据生产和共享 .............................................................................................................22
4.2 数据消费 .........................................................................................................................22
第5章 成功案例 .....................................................................................................................23
5.1 福建省星云大数据平台 .................................................................................................23
5.1.1 客户简介 ..................................................................................................................23
5.1.2 背景和问题 ..............................................................................................................23
5.1.3 解决方案 ..................................................................................................................23
东方国信 数据云产品白皮书

第1章 前言

1.1 编写目的
编写用户使用手册的目的在于为数据云产品的使用人员提供帮助说明,以便用户能够
快捷的掌握数据云产品的各项功能。
数据云产品的用户主要分为以下三类角色:
1、平台管理人员
2、租户管理员
3、普通用户

1.2 背景
数据云是东方国信自主研发的、以数据为核心的一站式大数据开发能力开放平台,涵
盖业内主流大数据开发工具和技术,为开发者量身打造最佳体验的大数据开发链路,可提
供从数据集成、导入、清洗、存储、挖掘、分析、数据质量管理、调度、部署、建模到可
视化报表、机器学习、自然语言处理、图像识别多种能力,提供从服务开发、测试、部署、
发布到数据管理、治理、运营、开放等全流程管理能力,营建数据开发、数据生产、数据
管理、数据服务共享的数据生态闭环,让开发者和运营者在使用过程中可轻松地发掘大数
据价值,获取深度洞察力。

1.3 名词解释

名词 解释
将数据库、FTP 等资源注册到平台,已注册的资源是数据服务开
资源注册
放的基础
基于数据库类型的资源,将数据库中的一个对象或多个对象封装
数据集
为数据集

服务发布 基于数据集进行数据服务的发布,发布的服务可进行商品上架

APP 是用户调用 API 服务时的身份,每个 APP 有各自的 appToken。


APP
调用 API 前,需将已订阅的 API 授权给 APP;当调用 API 时,网

1
东方国信 数据云产品白皮书

关会校验该 appToken 以进行访问认证。

...... ......

2
东方国信 数据云产品白皮书

第2章 产品简介

2.1 产品背景
传统的企业数据平台架构是以应用为中心构建,围绕应用设计的软硬件形成了无数
个独立的业务系统,业务系统之间的数据互通依靠专用的数据链接,而随着应用逻辑日
渐复杂,构建独立系统的成本也在逐渐增加。随着大数据时代到来,应用的业务复杂
度、数据处理量呈几何级数增长,传统架构将面对在数据开发、数据治理、数据运营等
方面的的挑战:

➢ 数据开发的挑战:

数据开发过程依赖脚本和人工,数据开发过程技术门槛高,数据流程成黑盒状
态。

➢ 数据质量的挑战:

缺乏企业全域数据统一的标准和数据规范定义的方法论,缺少数据的质量管控和
评估手段,导致数据质量不高,数据不可信。

➢ 数据运营的挑战:

传统架构下缺乏面向普通业务人员的高效、准确的数据搜索工具,数据找不到。

2.2 产品定位
数据云是为了应对上述挑战的创新数据架构,数据一个真正意义上实现了企业数据中
心生产和服务的一个云化平台产品,生产和服务是在新的数据环境下衍生出的两种截然不
同的数据管理场景,数据云将多种大数据能力差异化分配在两种场景下,匹配出符合企业
实际需求的管理流程:
数据生产应对的是来自业务应用对数据越来越高的时效性和质量要求,注重的是数据
规模化生产时的稳定性,通过构建自动化、标准化的数据加工流程,来源源不断的提供数
据,数据生产构建端到端的数据处理流程,涵盖对异构数据的集成、标准化的数据建模、
可视化的流程开发、自动化的数据处理等。数据生产是一个用同时数据生产活动将由专业
3
东方国信 数据云产品白皮书

的数据管理员和数据工程师主导,。
数据服务应对的是业务应用对数据的多样化和敏捷响应要求,以服务的形式满足不同
场景、不同条件下的数据需求,注重提高数据服务的灵活性和可复用性,数据可通过批量
数据、API 和流式计算等多种服务形式进行开放,并能够跟数据分析应用深度结合,在操
作和易用性层面提供更直观、快捷和高效的展现。
数据生产和数据服务运行在相互独立的集群环境中,按照各自的业务目标独立运行,
数据生产集群将汇总加工后的数据实体转至数据服务集群进行服务的封装和开放,同时两
个集群通过相同的系统框架和基础资源框架来保持一致性;数据云通过独立而又协同的两
个集群,构成了数据从生产到应用的流水线,为应用稳定地供应数据,激发业务活力。

2.3 产品架构
数据云平台由资源中心、生产中心、服务中心和运营中心四个部分构成
1、资源中心:通过资源管理系统(BCOS)实现对底层存储和计算资源进行虚拟化,
实现统一的管理、分配和维护,并按照服务中心的需求划分虚拟的资源实例,并与租户进
行关系绑定,形成租户可用的资源服务
2、生产中心:通过以数据治理为核心的自动化数据开发工具,打通企业的数据加工生
产链条,涵盖数据建模、集成、元数据管理、质量管控、标准管理、资产管理等环节:
3、服务中心:通过一站式服务发布工具实现全界面化的服务开发,并发布到统一的服
务目录中,包括数据、资源和工具服务的发布:
4、运营中心:涵盖平台内的基础运营和运维的工作,支持平台的正常运转:

4
东方国信 数据云产品白皮书

5
东方国信 数据云产品白皮书

第3章 产品构成

3.1 生产中心

3.1.1数据开发

数据云提供的数据开发采用图形化的数据流和工作流设计,提供面向对象免编程的操
作方式,一站式完成数据采集、加工处理、数据稽核流程,在一个面板工作区就可以实现
加工、建模、调度、稽核的一体化配置,提高了用户对数据云操作的延续性,降低了数据
开发门槛。提供丰富的适配器,对外提供统一的接口接入,支持多种数据源,包括结构化、
半结构化数据,轻松实现系统异构数据整合,消除信息孤岛,为实现海量异构数据统一提
供可能。

数据开发架构如下:

6
东方国信 数据云产品白皮书

3.1.2数据建模
数据建模提供可视化的建模及模型部署情况监控的工具 ,定义通用数据实体和数据结
构,实现数据模型的标准化和一致性。并能够提供贯穿数据的开发、部署、治理等各个阶
段的模型管理功能,记录数据仓库模型建设的全过程。
1. 可视化模型设计:提供可视化建模方式,可创建面板进行逻辑模型设计。在操作面
板中进行可视化行逻辑模型设计与关系创建。
2. 资源视图:可视化的数据查询工具,支持快速的数据查询,为专业人员提供 SQL
查询方式,支持 DDL 和 DML 对数据对象进行操作。
3. 模型检测:以物理模型为基础,对比物理模型与仓库模型的差异,达到模型部署质
量监控的目的。
4. 数据字典:建立逻辑和物理字段类型映射关系,用于逻辑模型物化生成物理模型
(表)时,结构中每个字段的逻辑字段类型转换成所选数据库的物理字段类型。

3.1.3数据采集

数据服务引擎能够支持一站式的数据服务发布,帮助服务开发者连续操作完成服务设
置、数据选取和参数设置三个步骤,完成服务的发布上线:
1. 迁移映射:迁移映射可用于外围数据采集,采集各类不同来源、不同类型的数据资
源,如 Oracle 等数据库表、FTP 文件,并存储到大数据中心,为数据分析挖掘或
数据共享提供基础资源。还可用于不同数据源之间的数据同步。该过程只是单纯数
据移动,不存在数据转换处理。
2. 批量迁移映射:批量迁移映射,相比迁移映射增加了批量配置,可以在一个界面完
成多个表或文件的迁移配置,大大提高工作效率。 支持库到库、库到 FTP 文件
/HDFS 文件、FTP 文件到库三种场景。

3.1.4数据加工
数据服务引擎能够支持一站式的数据服务发布,帮助服务开发者连续操作完成服务设
置、数据选取和参数设置三个步骤,完成服务的发布上线:
1. 加工映射:加工映射用于数据加工,一个加工映射就是一个完整的数据抽取、转换、

7
东方国信 数据云产品白皮书

载入的数据处理过程,由一组转换节点组成。可以实现数据列筛选、列函数、表连
接、聚合、联合、排序、TOP 等操作。
2. 组合加工映射:组合加工映射用于数据加工,相比加工映射可以完成数据临时落地。
支持有多个目标节点、目标节点上可以继续添加转换规则,使传统加工逻辑在一个
过程中体现。
3. Flink 实时加工:流式加工映射用于实时数据的采集、处理。如实时接收 kafka 消
息,经过筛选、关联、函数处理、稽核校验等可选操作,再实时加载到目标端。
4. 自定义映射:自定义映射用于特殊情况下的数据加工。当某些业务处理逻辑在加工
映射中得不到满足时,用户可通过自定义加工映射提交 SQL 处理脚本。脚本支持
的类型 SQL(ORACLE SQL、HIVE SQL)和 PIG Script。

3.1.5数据质量
数据质量平台是面向数据仓库全量数据,以暴露和提升数据质量为目标,帮助企业建
立完善的数据质量管理流程与方法论,实现数据全生命周期的质量监控与质量稽核,保障
数据的完整性、准确性、一致性、及时性等。
1. 稽核规则:平台 11 大类稽核规则,支持稽核规则和稽核流程可视化配置。
2. 数据剖析:支持多种自定义算法对接入数据进行剖析,直观展现数据情况,辅助用
户快速了解掌握数据,为数据稽核及预处理提供指引。
3. 数据分流:支持基于高性能 spark 引擎对错误数据进行分流打标签,直观展示错误
数据问题,快速追溯定位数据质量问题。
4. 稽核任务:结合数据云调度流程实现稽核任务的设计与配置,基于调度的触发机制,
实现任务的自动化执行。
5. 稽核结果:对数据质量稽核任务执行情况、稽核问题生成、处理、流程的执行情况
的监控,针对稽核对象所处层级、稽核账期等进行分类监控。
6. 稽核质量报告:定期生成数据质量分析报告,对数据稽核及数据处理结果进行综合
评估,通过评估定位数据问题,确保数据的可用性。

8
东方国信 数据云产品白皮书

3.1.6元数据管理
元数据管理平台获取数据仓库内的技术元数据、业务元数据、过程元数据,将分散的
元数据统一管理起来,为企业提供端到端的元数据服务。
➢ 元数据管理:企业数据中心元数据对象管理,包括表、视图、函数、存储过程、数
据库资源等元模型的管理;
➢ 血缘关系:展示表,视图,过程之间的关系,表和指标间的关系。对于展示的元数
据血缘关系图中,各节点元数据均支持元数据信息查看及进一步钻取各节点的血
缘关系。
➢ 变更时间轴:元数据生命周期管理,以时间线条的形式提供元数据变更信息记录,
将元数据的变更情况以更为直观的形式体现。同时,变更内容描述支持对变更元数
据的链接分析,查看变更元数据的具体变更情况。

3.2 服务中心

3.2.1数据资产

数据资产管理的对象为企业内部系统、应用、平台所包含的表、文件、标签、指标、模
型、报表等技术和业务元数据信息,以技术和业务视角对企业核心数据资产进行盘点、展
示和管理,并对用户数据权限进行管理,为数据的管理者和使用者提供统一的数据资产管
理、资产视图以及权限管控。
数据资产管理框架如下:

9
东方国信 数据云产品白皮书

➢ 元数据扫描
通过元数据扫描对企业数据仓库中的数据资源进行识别、描述和追踪,元数据是实现
数据资产自动化盘点和注册的基础,能够准确且高效地对数据的血缘关系进行梳理,通过
采集配置、元数据扫描、元数据管理、元数据血缘分析几个环节完成数据资产管理的底层
数据准备工作。
➢ 配置管理
配置管理是对企业数据资产分级分类策略的管理,通过事前定义数据资产类型、数据
资产注册规范、数据资产标识模型,实现数据资产自动注册的框架,将采集的元数据自动
归类到数据资产管理体系中。
➢ 资产盘点
数据资产盘点是对元数据及补充数据进行统一注册和持续管理的过程,涵盖数据资产
的生命周期,包括资产的注册、标识、发布、变更、注销几个环节,通过标准化的注册流
程赋予资产唯一性和权威性,以使资产能够在企业范围内或更大范围内得到认知,作为充
分推广和使用的基础。
➢ 资产视图
资产视图包含资产目录和全景视图两个部分,分别面向资产的使用者和管理者
资产目录是对所有注册资产的完整收录,作为企业了解和使用数据的最佳入口,能够
通过标签查询快速检索资产,通过资产申请快速获取数据权限,自助化流程极大的方便数
据使用者查询和使用数据。
全景视图是对当前企业数据仓库中各类数据资产分级、分类、分平台、分场景的展示,
以不同的统计维度展示资产的动态变化和分布情况,便于管理者随时了解企业数据资产的
管理现状,为企业数据规划提供支持。
➢ 资产安全
资产安全是企业数据资产的安全等级进行管控,通过数据资产安全程度的分级分类,
明确数据资产可查询、可开放的程度,并对其中的敏感资产提供重点的安全保护策略。
➢ 资产权限
资产权限的管理是实现数据资产开放基础,通过在企业内定义组织和角色的多重数据
权限,并与资产安全策略相关联,可实现数据资产的定向可见和定向开放。

10
东方国信 数据云产品白皮书

3.2.2数据服务
数据云提供的数据服务是基于元数据构建的数据查询和推送引擎,以解决传统架构中
数据集成关系存在的问题,消除数据孤岛现象。数据服务通过统一的数据出口与业务应用
的需求进行对接,同时屏蔽底层数据的复杂性,数据需求者只需关注数据内容,并选择适
配自身调用方式的服务类型,即可快速获取数据,接入自身的数据分析系统中,包括批量
数据形式、API 接口形式、消息流形式的数据服务。
数据服务架构如下:

生产集群 服务集群


服务
生产数据 据 数据服务引擎
数据同步 元数据 注册服务 中心

订阅、授权

API网关 ETL 流处理 服务订阅

调用API 推送数据 推送消息

应用调用 数据库 Kafka

API数据需求 批量数据服务 流式数据服务

数据需求者

数据服务引擎能够支持一站式的数据服务发布,帮助服务开发者连续操作完成数据选
取、参数设置、安全设置和套餐设置四个步骤,完成服务的发布上线:
5. 数据选取:可视化的元数据查询工具,支持快速的数据范围筛选,同时也为专业人
员提供 SQL 查询方式,以复杂的关联查询来选取更大范围、更贴近业务需求的数
据。
6. 数据参数:支持文件同步、数据库同步、数据 API 和流式推送四种类型的数据服
务发布,通过参数设置灵活的数据输出方式,满足差异化数据需求。
7. 数据安全:数据服务与数据安全策略关联,在调用服务时,根据用户角色等级匹配

11
东方国信 数据云产品白皮书

数据安全策略,交付不同数据安全等级的数据。
8. 服务套餐:将数据服务打包成套餐,面向不同的人群发布,通过设置价格实现自助
的付费调用和后向结算。

3.2.3服务目录
数据云通过互联网化的服务目录,将数据服务以及数据开发所需的资源、工具等进行
统一的集成,数据需求者通过服务目录进行浏览和订阅数据服务,即时获取数据。

3.3 运营中心

3.3.1租户管理

数据云采用多租户模式为开发者提供计算资源和存储资源,开发者以租户为单位订购
的资源与其他租户完全隔离,保障开发者在基础资源生产的安全性和稳定性,为各业务部
门和分公司分配一、二级租户,业务部门和公司租户可根据自己的需求自行创建下级租户,
划分资源给下级户,各级租户可自行对下级租户进行资源(CPU、内存、存储空间)配额管
理。

3.3.2数据安全

数据云提供贯穿生产流程的数据安全保障,通过全面的数据安全策略和安全工具实现
数据的“事前预防、事中管控、事后审计”,充分保障数据中的敏感信息在使用过程中不会
泄露。
数据应用安全管理平台涵盖数据的基础安全管理、数据采集安全管理、存储和处理安
全管理以及数据的应用安全管理,安全管控的核心是通过制定和执行安全策略来完成。数
据安全策略包括数据的安全等级、安全保护方式和安全访问权限,安全策略的执行依赖数
据安全保护工具,包括加密工具、脱敏工具、权限工具和水印工具。
安全管控的实施过程包括在扫描数据平台整体情况,发现敏感数据;根据智能算法为
数据自动推荐和匹配适应的安全管理策略;数据使用者在访问数据时依据安全策略进行权
限限制,在查看数据时依据安全策略进行脱敏、加密和水印保护;在数据被使用的整个过
程都将记录安全日志,通过统一的安全视图对安全事件进行追溯和审计。

12
东方国信 数据云产品白皮书

➢ 安全策略管理:
通过制定安全策略,将数据资产体系与角色权限体系关联,明确租户、用户与数据之
间的访问权限限制。
能够对数据库表自动扫描,识别敏感信息,智能推荐安全策略,有效辅助管理员管控
敏感数据。
能够对别名规则直接生成策略集,对于应用的不规范 SQL 进行安全管控。
➢ 安全工具管理:
支持加密工具、脱敏工具、权限工具和水印工具,加密算法包含 AES、RSA、MD5、
DES 等先进密钥算法,以及 SM2、SM4 等国产算法;支持明水印和暗水印,对于不可编辑
的文件如 PDF 使用明水印,对于可编辑文件 Excel 和 Word 使用暗水印,从而确保文件可
追溯。

3.4 资源中心

3.4.1BCOS 资源管理

以 Docker、Kubernetes 等技术为核心架构,基于大规模容器集群,对基础计算、存储、
网络等资源进行虚拟化,实现统一的管理和分配,对上层应用需求资源进行灵活管控,为
各类服务和应用在其上进行部署、运行、调度、监控、服务发现、应用调度、健康检查和
自动扩缩容提供基础能力。
产品特性:
1. 丰富的 IaaS 层接入方式,为上层应用及组件提供稳定的基础设施环境和组件化框
架;
2. 灵活的弹性调度机制,开箱即用的交付模式,提高了交付的灵活性,降低了运维成
本;
3. 应用从代码质量检查、代码编译构建,到自动测试、自动部署等持续交付的 DevOps
全流程支撑。

13
东方国信 数据云产品白皮书

3.4.1.1应用发布与交付

应用生命周期管理
提供应用的创建部署、服务启动和停止、服务升级和回退、服务删除、实例监控、在线
日志、在线终端、配置变更、弹性伸缩、存储挂载、节点和服务调度、访问策略配置、运
行监测、灰度发布等生命周期管理。
应用编排
可视化图形化设计器,“拼积木”式操作体验,快速完成应用与资源的混合编排,动态编
排服务之间的依赖关系,一键自动化部署和配置可视化编排的复杂应用。
应用拓扑
应用全景链路图,用户端到云应用全链路性能分析追踪,实时了解应用的运行状态,
发生问题快速进行故障诊断。

3.4.1.2镜像仓库

企业级私有 Docker 镜像仓库,存储和分发用户的应用镜像,基于租户模式的权限控


制、镜像异步导入、可视化操作界面。

3.4.1.3应用市场

企业应用可以很方便的集成到 BCOS 标准化平台入驻到云应用市场,将自己优质的应


用以分享、订阅或订购等模式开放给其他用户使用;
丰富的运维、运营管理能力,企业通过平台管理和查看应用相关信息,包括用户分析、
工单审批、计量等。

3.4.1.4云资源组件

提供支撑企业应用运行的各种基础资源和组件,按需使用,随时进行扩容和缩容,并
提供相应的在线管理工具。
⚫ 数据库与缓存:Mysql、Redis、Memcache 等;
⚫ 中间件:Kafka、Zookeeper 等;
⚫ 大数据组件:Yarn、Hive、Spark、Storm、Elasticsearch、FTP 等;

14
东方国信 数据云产品白皮书

⚫ 存储:文件存储、块存储、对象存储。

3.4.1.5DevOps

代码库
关联纳管三方代码库,支持 Gitlab、Github、SVN 等主流代码仓库管理软件。

代码检查
在线进行多种主流语言的代码静态检查、代码安全检查、质量评级、代码缺陷分析,
及时发现代码缺陷,提升代码质量。
包括:Java、JavaScript、CSS、C++、Go、Python、PHP 等

编译构建
为应用提供云端编译构建服务,一键编译代码至构建生成应用 Docker 镜像;
支持 Ant、Maven、Gradle 等主流构建模式;
支持 Java、Go、Nodejs、Php、Python 等主流开发语言。

自动测试
简单易操作的在线接口自动化测试服务,支持 HTTP 和 HTTPS 协议;
支持导入 Swagger 定义的接口自动生成测试脚本。

流水线
可视化定制自动交付流水线,按业务需求灵活集成代码获取、代码检查、编译构建、
自动部署、自动测试等各应用交付环节各个任务。

3.4.2CirroData 数据库
行云(CirroData)分布式数据库是面向海量数据分析型应用领域,完美融合 Hadoop 平
台和 MPP 架构的各自优势,充分利用列存储和行存储的特点,以分布式存储和高效压缩
技术为基础,动态计算资源调配,完全自主研发的一款新型分布式高性能数据库产品。支
15
东方国信 数据云产品白皮书

持数据联邦,可进行 Terabyte 到 Petabyte 级别的海量数据存储和分析,能分布在数百台普


通服务器上被大量并发用户高速访问,以满足各个数据密集型行业日益增大的海量数据分
析,数据挖掘,数据备份和即席查询的需求。同时产品易于管理,无单点故障和性能瓶颈,
可简单实现在线平滑扩容。
基于 Hadoop 的 Namenode、Datanode 和 Zookeeper 底层环境,用户可通过安装 CEA 可
视化集群管理工具,方便地对行云多个集群进行管理。包括各组件、引擎的安装管理,节
点的增删启停,节点状态监控,配置参数修改,联机管理及可视化数据监控统计等等。另
外也提供了可视化 PL/SQL 、SQL 开发工具支持数据对象及用户的操作管理,和 PL/SQL
脚本的编辑美化调试执行。
行云数据库系统架构如下:

核心功能包括以下几个章节。

3.4.2.1PL/SQL 标准服务

行云分布式数据库提供了与传统关系型数据库高度兼容的 PL/SQL 标准服务。同时还


为用户提供了清晰、便捷的存储过程图形化集成环境( PL/SQL Developer),用于访问、
配置、管理数据库对象和进行 PL/SQL 编辑和执行。
分布式的 PL/SQL 调度执行引擎,能有效提高集群的并发能力,缩短任务执行时间,
并支持执行引擎集群的线性无限扩展。利用负载均衡技术,根据 PL/SQL 执行引擎忙闲状
16
东方国信 数据云产品白皮书

态,灵活调度分配作业,提高资源利用。当执行过程中出现一个执行节点宕机,执行引擎
将会分配另一个节点执行任务,确保整个集群的高可用性。

3.4.2.2数据类型

行云分布式数据库支持以下数据类型:
1. 数值类型:INT,DOUBLE,LONG,NUMBER,DECIMAL
2. 字符类型:CHAR,VARCHAR,VARCHAR2,STRING,CHARACTER,
CHARACTER VARYING,CHAR VARYING
3. 日期时间类型:DATE,INTERVAL,TIMESTAMP
4. 大对象类型:CLOB,BLOB
5. 特殊类型:NULL

3.4.2.3SQL 语法支持

行云分布式数据库支持 SQL 92 标准,支持标准 DDL、 DCL、 DML 语法。


1. 数据定义语法:
CREATE:包含对数据库,数据表,DBLINK,索引,视图的创建语法;
DROP:包含对数据库,数据表,DBLINK,索引,视图的删除语法;
TRUNCATE:包含对数据表的截断语法;
ALTER:包含对分区、列的更改语法。
2. 数据操作语法:
包含 SELECT,INSERT,EXPORT,UPDATE,DELETE,MERGE INTO 语法等;
支持 GROUP BY,ORDER BY,CASE WHEN,LIMIT,IN/NOT IN,IS NULL/ IS
NOT NULL,WHERE,HAVING,LIKE 等;
支持多个事实表之间、事实表与维度表之间的 JOIN,支持 UNION 和子查询;
支持 DISTINCT 去重;
支持 COMPACTION 数据整合。
3. 数据管理语法:
包含用户管理语法、查看语法等。

17
东方国信 数据云产品白皮书

3.4.2.4函数

行云分布式数据库函数支持聚合函数、单值函数、字符串函数、日期和时间函数、窗
口函数。
1. Math 函数:
FLOOR,CEIL/CEILING,ROUND,SIGN,MOD,ABS,TRUNC,LOG,
LN,POWER,SQRT,SIN,COS,ATAN,ASIN,ACOS,BITAND,BITOR 等。
2. String 函数:
CONCAT,REPLACE,SUBSTR/SUBSTRING,LENGTH,LOWER,UPPER,
LTRIM,RTRIM,TRIM,INITCAP,LEFT,RIGHT,TO_CHAR,
REGEXP_LIKE,REGEXP_SUBSTR,TO_SINGLE_BYTE,REGEXP_COUNT,
REGEXP_REPLACE,REGEXP_INSTR,REVERSE,REPEAT,MD5,SYS_GUID,
CHR,ASCII,TRANSLATE,DBMS_RANDOM,ENCRYPT,DECRYPT,LPAD,
RPAD,LENGTHB,INSTRB,SUBSTRB,DECODE 等。
3. Date 函数:
CURRENT_DATE,SYSDATE,LAST_DAY,TRUNC,ROUND,
ADD_MONTHS,MONTHS_BETWEEN,TO_DATE,TO_CHAR,YEAR,
MONTH,DAY,QUARTER 等。
4. Interval 函数:
NUMTOYMINTERVAL,NUMTODSINTERVAL,TO_YMINTERVAL,
TO_DSINTERVAL,TO_CHAR 等。
5. Timestamp 函数:
CURRENT_TIMESTAMP,LOCALTIMESTAMP,SYSTIMESTAMP/
STATEMENT_TIMESTAMP,TO_CHAR,TO_TIMESTAMP,QUARTER 等。
6. 聚合函数:
SUM,COUNT,MAX,MIN,AVG,STDDEV_POP,MEDIAN,LISTAGG 等。
7. 窗口函数:
ROW_NUMBER,RANK,DENSE_RANK,NTILE 等。
8. 分层查询
18
东方国信 数据云产品白皮书

9. 其他函数:
TO_NUMBER,CAST,EXTRACT,DBMS_RANDOM.STRING,GREATEST,
LEAST,COALESCE 等。

3.4.2.5数据加载导出

1. 数据加载:
支持从远端数据库(DBLINK FROM ORACLE,支持多并发)、本地数据库、本地
文本文件、本地 HDFS 文本文件、外部 HDFS 文本文件导入数据。
2. 数据导出:
支持从行云分布式数据库导出到本地文本文件、HDFS 文本文件。

3.4.2.6资源管理

1. 全局资源管理:
设置数据库级、用户级、队列级的资源配额;
动态调整配置参数。
2. 多租户资源管理
设置进程级的资源管理和资源隔离;
资源合理与数据隔离区分。

3.4.2.7安全管理

1. 用户管理:
提供行云用户登录验证功能(创建、删除、更改用户密码)。
2. 权限管理(对象授权、权限回收、系统授权、回收):
根据数据安全策略,区分用户级别,管理用户权限,保证数据的安全性;
支持对 SCHEAM、TABLE 对象的权限管理。

3.4.2.8应用接口

1. 行云分布式数据库支持 JDBC 接口:


CirroData 提供基于 JDBC 的的数据访问接口,任何 JAVA 程序都可透过 JDBC 驱
19
东方国信 数据云产品白皮书

动来访问行云数据库。CirroData JDBC 是遵循 JDBC 4.0 标准规范,用户端的 JRE 必


须在 jdk1.6.037 以上版本。
2. 行云分布式数据库支持 ODBC 接口:
CirroData 提供基于 ODBC 的数据访问接口,是基于 ODBC 3.0 的接口规范,支持
Windows 平台上任何支持 ODBC 驱动的开发工具透过 ODBC 接口来对行云数据库进
行操作。

3.4.3BEH

3.4.3.1产品架构

BEH 东方国信企业级大数据平台,以开源大数据技术为基础,支持从批量处理、实时
计算、数据挖掘到机器学习等各种应用场景;平台核心组件功能强化,平台管理可视
化,平台开发工具化。涵盖能力包括 BEH-Component、BEH-Manager、BEH on Cloud。
⚫ BEH-Component:企业级的大数据处理平台,是一个分布式数据处理系统,对外
提供大容量的数据存储、分析查询和实时流式数据处理能力。
⚫ BEH-Manager:企业级大数据管理平台,提供高可靠、安全、容错、易用的集群
管理能力,支持大规模集群的安装部署、监控、告警、用户管理、权限管理、
审计、服务管理、问题定位、升级和补丁等功能。

3.4.3.1.1 BEH-Component

东方国信企业大数据发行版针对开源的 Hadoop 的源代码做了大量的改进与优化工


作。核心改进如下:
⚫ Ansible脚本快速部署
BEH 开发了一套基于 Ansible 的部署脚本。仅需要一些简单的前期配置就可以快速完
成配置和文件分发部署。大大提升了集群的部署速度。而且基于 Ansible 还可以定制一
些批量脚本用于后期的运维工作。
⚫ 数据保护
BEH基于Kerberos和Ranger提供平台的安全认证和权限可控制。不同用户在共用平台的
时候提供数据隔离和保护。

20
东方国信 数据云产品白皮书

⚫ 异构存储支持
对于异构硬件(磁盘、SSD、内存)存储支持,依据数据热度调节 HDFS Block 存放策
略,为冷数据存储和准实时分析提供不同级别的加载速度和响应能力。
⚫ 支持多引擎
BEH集成了多种计算引擎,Yarn可以运行Flink/Spark/Mapreduce引擎的计算任务,同时
Hive也支持MR/Spark两种计算引擎来运行Hive的计算任务。
⚫ 扩展与兼容
BEH集成了Hadoop生态的核心组件,社区在这些核心组件上有丰富的应用项目,比如基于
Hbase的图数据库(JanusGraph)、时序数据库(OpenTSDB)、时空数据库(geomesa)等等,
同时公司自研产品如cirrodata和BDI产品等也能兼容和支持。

3.4.3.1.2 BEH-Manager

⚫ 快速部署
自动化按需构建大数据平台,规范化安装,维护成本低。
⚫ 组件管理
Hadoop 生态圈各组件的集中管理和维护,主机管理更易实现平台的扩容。
⚫ 监控告警
关键硬件指标的展示和告警。监控数据保存在 HBase 数据库,无需维护,可自定义监
控数据生命周期 。
⚫ 多租户
平台的各级租户可共同使用资源,实现平台的资源共享和隔离 。
⚫ 平台配置
配置的快速变更,追溯节点的历史配置,可视化分发配置 。

21
东方国信 数据云产品白皮书

第4章 典型场景

4.1 数据生产和共享
为数据开发团队构建标准化、组件化、流水线式数据生产过程,提升开发者数据生产效率;
多种管理策略为数据安全保驾护航;灵活的数据封装编排动态、快速上架共享数据

4.2 数据消费
利用数据订阅与使用流程,构建数据共享一体化,整合汇集企业内外的优质数据资源,
通过一站式自助数据服务,让每个数据消费者都能高效、便捷的获取数据,再结合数据消
费者自有数据,使能数据服务突破创新。

22
东方国信 数据云产品白皮书

第5章 成功案例

5.1 福建省星云大数据平台

5.1.1客户简介
福建省星云大数据应用服务有限公司系福建省电子信息集团于 2013 年 11 月全资设
立的国有性质子公司,注册资金 2.15 亿元人民币,专业从事大数据应用、信息平台开发、
平台运营和系统集成。公司是福建省政府授权的省级政务信息外包服务主要提供商、省级
政务信息开放开发特许经营主体和央企、外企、民企对接合资合作重要窗口。公司围绕“云
+公共能力平台+大数据应用服务”发展战略快速布局,自主投资建设福建省电子政务云平
台和“位置服务”
“物联网”
“视频能力”
“多卡融合”
“大数据开发”五大底层能力公共服
务平台,目前正规划建设“海丝卫星数据服务中心”,实现省政府、国防科工局联合提出的
“卫星应用助力数字福建”,以上基础能力平台为政府、企业、行业提供云和数据服务支撑。

5.1.2背景和问题

星云大数据公司响应《2018 年数字福建工作要点》,重点建设福建省大数据开发公共
平台项目,使用大数据处理技术,对政务相关数据、公共事业、公共平台、第三方等数据
进行收集、整理、分析和挖掘,面向全省为政府、企业、高校、公众等提供提供“可用不
可见、可算不可移”的数据开发服务,解决政务数据开放流通及数据资产保值增值等问题,
带动我省信息服务产业发展,更好地服务新形势下城市发展方式、管理模式、服务水平,
响应省电子信息集团提出的以电子制造业与信息服务业并行发展的思路,充分发挥大数据
存储、分析、挖掘、应用优势,解决政务数据开发及数据资产保值增值等问题。

5.1.3解决方案

星云大数据平台项目为了实现面向多企事业单位、多用户群体、多应用需求开放大数
据能力,满足数据开发、能力开放、科研教研、考试教学等多样化场景,构建了灵活的大
数据能力架构模式,平台整体划分为大数据基础平台和大数据统一门户两大部分:
大数据基础平台:主要实现底层大数据处理能力的整合和封装,在数据资源方面通过

23
东方国信 数据云产品白皮书

DCOS 整合分布式资源,通过 yarn 整合计算资源,并实现多租户的资源隔离和分配,通过


K8s 集群为整个平台提供,在大数据处理方面涵盖采集、导入、清洗、存储、挖掘、分析、
质量管理、调度、建模、BI 报表展现、可视化展示等大数据开发全链条工具。
大数据统一门户:主要实现大数据平台面向开发者、租户管理员、平台运营者、平台
运维人员等多种角色的统一访问门户,通过统一门户将大数据能力投放至开发者界面,平
台实现以集成化、可视化、流程化为目标,承载管理员的服务注册、平台运营和资源监控,
承载租户的服务订购、服务使用和服务监控场景。
平台整体架构图如下所示:

24

You might also like