You are on page 1of 5

数据仓库的未来

惊喜!您永远不会想到未来就在云端。

我们不应该过分关注数据仓库的“未来”。过去五年在平台级别带来了基本的
新功能,大多数组织都在努力采用这些新技术。我们应该关注数据仓库的“现
在”,以及如何将新技术用作在您自己的组织内创造“未来”的平台。新的方
法和技术有效地消除了限制,现在未来是可塑的——最有进取心和创造力的公
司可以争夺。未来是每家公司将如何最大限度地利用新技术和技术来创造出色
的客户体验。该行业将从暂停消化新功能中受益。

数据仓库客户想要什么?

可以公平地说,数据仓库技术的客户已经厌倦了实施和使用传统数据仓库的复
杂性。成本要素也是一个症结所在。然而,如果数据仓库兑现了他们的承诺,
那么成本将是一个更容易下咽的药丸。如果你有一个单一的数据仓库可能会很
好,但是大多数(全部?)企业通常在不同的架构上都有多个数据仓库,这需
要昂贵的专业 dbas 和运营人员才能创造哪怕是适度的成功。所以考虑到所有
的复杂性和成本,为什么还要麻烦呢?

数据的大趋势是在一项服务中提供所有数据。有很多方法可以实现这一结果。
如果您可以将数据整合到单个存储中,那么像 Google 的 BigQuery 这样的大规
模无服务器数据仓库技术能够将企业的数据需求作为单个端点进行存储和服务。
您很可能已经拥有如此多的数据仓库,因此无法进行整合,您必须探索下一代
新兴数据虚拟化技术,这些技术可以将单个数据服务视图呈现到多个数据仓库
中,无论是在本地、云端还是两者的任意组合。

同样强烈的趋势是希望最小化与传统数据仓库相关的数据工程和操作要求。无
服务器模型最大限度地减少或消除了对数据工程/数据运营团队的需求,因为扩
展和正常运行时间要求外包给了云供应商。

一旦你拥有了一个超级可扩展、低摩擦的数据服务,目标就是让这些高价值数
据尽可能地提供给不同的数据消费者。第一步是通过数据目录使数据可发现。
为了分散访问,您需要集中访问授权:这意味着基于策略的数据保护,支持基
于角色的访问控制 (RBAC)、端到端加密、审计、沿袭等。

从整体上考虑这一点,如果不提供单一数据服务愿景,您就无法轻松且可扩展
地实现可发现性和安全受管自助服务的目标。
总而言之,下一代数据仓库包括支持以下功能的功能:

 通往所有数据的单一网关
 能够将保持该服务对所有消费者高度可用的复杂性外包。
 基于策略的访问控制和治理
 高 UX 可发现性接口
 服务于所有消费者,从商业智能到机器学习和数据科学用例。

该技术已经到来,现在可以结合起来实现自助服务的愿景。如果做得正确,真
正受监管的通用自助数据计划不会提供增量价值,而是数字化转型的引擎。

什么是云数据仓库?

任何人都不应该对基于云的数据仓库与其本地同类共享许多特性和功能感到惊
讶,但是有一些非常关键的差异化因素会对从运营到功能的所有方面产生有意
义的影响。

保持软件最新是本地数据仓库的一个主要问题,如果您过渡到云 EDW,这些
数据仓库将完全在您的后视镜中。我预计没有人会错过这一点,就像电动汽车
司机不会回忆他们在加油站的美好经历一样。保持软件更新的好处意味着定期
提供新的和引人注目的功能,无论是高级地理信息系统 (GIS) 还是内置的机器
学习支持。

成功使用数据将导致一件事——对更多数据的需求增加。云数据库代表一个可
扩展的平台,可以随着您的组织使用更多数据来做出决策的愿望而增长。可以
说,云数据库代表了以具有潜在成本效益的方式成功进行大规模分析的唯一途
径。上句的关键词是性价比。采用云数据仓库始终意味着为使用的资源付费,
这直接反映了您使用更广度和深度数据的能力和愿望。您将用数据工程和软件
许可的成本换取消费驱动的成本模型。这可能很难调和。

好处

1. 数据访问。某种程度的大规模可扩展性的副作用,存储多种形式数据的
能力——不仅仅是纯粹的关系——再加上基于云的服务的固有弹性,允
许非常广泛的数据服务推出,而不必担心人力和资本缩放要求。当目标
是让尽可能多的人能够访问时,这种摆脱传统摩擦点的自由是不可低估
的。没有什么比雇佣更多的数据工程人员或购买更多的硬件更能消除这
种势头了。
2. 性能和可扩展性。毫无疑问,传统的本地数据仓库绝对可以扩展。真正

的创新是从 DBA 和 DataOps 中解放出来。您的组织中仍然需要这些人,


尽管人数较少。像谷歌和亚马逊这样的公司肯定知道如何提供高度可用
的服务。
3. “新技术” 。传统上与数据湖相关的属性已经融合到云数据库中,主要
是在机器学习和数据科学领域。一些供应商在迎合这些工作负载并提供
先天支持方面更加积极。超出我们传统定义的数据仓库的创新应该会继
续下去。

挑战

1. 迁移策略/安全风险。这里没有任何架构上的缺陷,这纯粹是机械的。需
要移动数据,并且需要为该数据实施新的安全措施。生成数据的应用程
序需要重新定位,存储数据的基础设施需要重新配置。
2. 成本。合法低调是一个大问题。仅基于数据的性质,我预计除了基于消

耗/资源利用的定价之外没有任何创新。供应商试图通过“所有你可以吃
的”定价让你摆脱这种情况,但是,你应该始终意识到广泛采用会让你
付出什么代价。此外,还记得您通过迁移到云中节省的所有数据工程师
吗?是的,这就是你可能不得不部署它们以优化消费路径的地方。
3. 性能。在对性能有多棒赞不绝口之后,我会转身说,这还不够。虽然您
可以为性能付费,但要实现良好的平衡——分析的合理化单位经济学—
—仍然具有挑战性,我希望数据仓库和虚拟化供应商能够永久地继续他
们的性能路线图。

数据仓库的未来是云

实际上,答案很简单:对于云数据仓库提供的内容,目前没有可行的本地竞争。
出于性能、安全性、敏捷性和操作简化的原因,组织正在转向云数据仓库技术。

数据仓库死了吗?

绝对不。数据仓库今天比以往任何时候都更加活跃,是大多数以数据为中心的
创新的基石。数据湖的概念正在与云 EDW 提供的内容相融合,因此,数据仓

库在我们如何在 IT 环境中概念性地定位其应用程序方面提供了必要的更新。
虽然我认为看到数据仓库的这种融合和责任增加是一个很好的趋势,但 EDW
一词本身既超载又背负着包袱。数据仓库的未来可能涉及名称更改。

带来新的令人兴奋的工作负载(例如数据科学)的能力,再加上更成功地推出
自助服务,可能足以克服过去的罪恶。成功可以治愈一切烦恼。

云数据库

雪花

获得牵引力,伟大的思想分享。

1. 围绕数据共享的引人注目的新功能。

2. 非常真实的用例。

3. 由于易于上手和使用模型,在数据科学界非常受欢迎。

4. 介于完全无服务器的 BigQuery 模型和更多配置驱动的 RedShift 之间。

大查询

1. 唯一完全无服务器的产品。我接触过 Google 用来保持 BigQuery 高可用

性和高性能的工程师团队和支持技术,这正是您对 Google 的期望。

2. 一流的 GIS 支持。

3. 集成机器学习声明性语言( BigQuery ML 或 BQML)。

红移

1. OG 云数据仓库。

2. 基于经过验证的 IP。

3. 需要最多的数据工程和配置。

AZURE SQL 数据仓库


1. 虽然迟到了,但微软似乎已准备好与超大规模和 Synapse 产品抗争。

2. 基于非常成熟的 SQL Server IP,因此与以前与该产品的另一个版本通信


的任何应用程序都非常兼容。

甲骨文

为什么 Oracle 不创建全球规模的无服务器产品,我无法理解。

结论

如果您可以将所有数据放在一个大数据仓库中,那就去做吧,虽然锁定是一个
问题,但数据整合的价值是无法估量的。如果你不能做到这一点——让我们面
对大多数人做不到的——看看虚拟化技术来创建一个单一的数据仓库消费端点。

ATSCALE 如何提供帮助?

AtScale 的数据抽象层为业务用户消除了现有和未来数据平台的复杂性,无论数

据存储在何处或如何存储。 AtScale 的 智能数据虚拟化使您能够迁移到混合


或多云数据架构,同时保护您的用户免受中断。

You might also like