Professional Documents
Culture Documents
大数据治理的概念及其参考架构
1,2
郑大庆 ,黄丽华3 ,张成洪3 ,张绍华4
( 1. 上海财经大学 信息管理与工程学院,上海 200433; 2. 复旦大学 计算机科学与技术学院,上海 200433;
3. 复旦大学 管理学院,上海 200433; 4. 上海市计算机技术开发中心,上海 201112)
摘 要: 大数据中蕴含着巨大的社会和经济价值,在实现这些价值的过程中大数据治理扮演重要角色. 首先从
大数据治理目标、权力层次、对象及范围、解决的实际问题 4 个维度,阐述了大数据治理概念的内涵,并由此明
确了大数据治理的概念; 进一步分析大数据治理内部要素和外部应用特征,构建了大数据治理参考模型. 大数
据治理的 3 个关键域分别是决策机制、激励与约束机制、监督机制,揭示了大数据治理关注的核心问题; 大数据
治理的 3 个外部应用特征是大数据生命周期、利益相关者、流通方式,揭示了大数据治理的主要场景特性,大数
据治理的参考架构综合了大数据治理的内部要素和外部应用特征,从而为研究和分析大数据治理构建了一个
相对完整的逻辑框架,有助于业界和学者更加全面、客观地分析和解决大数据治理领域的问题.
关键词: 大数据; 大数据资源; 大数据治理; 关键域; 生命周期; 利益相关者
中图分类号: F203 文献标识码: A
大数据资源是以容量大、类型多、存取速度快、潜在应用价值高为主要特征的数据集合. 伴随着社交
媒体、工业互联网、视频、图片和用户产生内容( user-generated content,UGC) 等应用所不断涌现的海量数
据,社会各个领域开始了量化进程,这一进程的核心是如何更好地利用大数据产生效益. 在大数据时代,
拥有数据规模和应用数据能力成为企业之间竞争的关键 ; 有效利用大数据资源也成为国家竞争力的重要
[1-2]
影响因素 . 但是,大数据资源是一把双刃剑,既存在巨大价值,又蕴含着巨大风险. 大数据应用必须追
求风险与价值的平衡,这正是大数据治理所蕴含的理念. 2017 年 1 月,北京知识产权法院终审认定脉脉
非法抓取使用新浪微博用户信息的行为构成不正当竞争 . 脉脉是基于人脉的职场社交 APP,通过网络爬
虫非法获取新浪微博用户头像、名称、职业和教育等信息,并直接显示在其软件上. 脉脉既没有明确与新
浪微博的权责关系,也没有建立相应的治理体系,并忽略了相应的风险,导致与曾经的合作伙伴对簿公
堂. 败诉结果也表明脉脉的经营模式存在巨大风险 . 由此管窥一斑,从大数据资源中持续获取价值应追求
风险和收益的均衡,这需要建立相应的治理体系,实现相关利益主体之间的权利、责任和利益相互制衡.
正如《经济学人》早在 2005 年所指出的“董事会应该像关注公司其他运行风险一样关注信息技术运行风
[3]
险,现在也许是时候筹备一个数据保护委员会了 ” . 当前,对于大数据治理领域的了解非常有限: 大数
据治理的概念内涵是什么? 大数据治理体系包含哪些主要方面? 大数据治理面临哪些新挑战? 本研究
企望在这些方面进行初步的探索 .
1 大数据治理的概念
1. 1 治理内涵的演变及解析
治理( governance) 最早源于拉丁文中的“掌舵”一词,指政府控制、引导和操纵的行动或方式,经常与
统治( government) 一词交叉使用在国家公共事务相关的管理活动和政治活动背景中 . 20 世纪 90 年代,学
者罗西瑙在《没有政府的治理》一书中比较了“治理”和“统治”两个概念,认为治理是一系列活动领域的
2 大数据治理的关键域
2. 1 决策机制
决策是在多种行动方案中进行选择 ,以及在做出选择之前所进行的一切活动. 决策机制是制订决策
的基本规则和制度,是保障决策质量、决策效率的重要措施. 决策机制的具体内容包括决策的规则和程
序、决策评价和追究制度、决策的专家论证和咨询制度等. 决策机制是依靠一定的组织结构和制度来运行
的,由决策权力机构及其对应的决策内容构成 . 决策机制包括了决策权和组织结构 ,具体到大数据治理领
域,决策机制就是建立与大数据应用相关的规则和程序 、评价机制和追究制度,并建立大数据治理相关的
组织结构,确定大数据应用相关的决策权力机构及其对应的决策内容和范围 .
决策是由高层管理者做出 ,当负责大数据应用的管理者将一系列决策权下放给下属时 ,必须决定
将哪些决策权留在自己手中 ,而将哪些决策权下放给下属 ,下属也面临着同样的问题 ,通过这一个逐
步确认的过程 ,大数据治理的决策权得到明确 ,相关岗位和职责 、大数据治理的组织结构也得到最终
确定 .
2. 2 激励与约束机制
激励与约束是两种不同的管理活动 . 激励主要提高管理者工作热情、积极性和创造性,使其潜能得到
充分发挥,而约束主要解决人际关系、行为方向等问题,确保成员个人目标与组织目标的一致,激励与约
束旨在解决组织发展的动力与方向 . 依据委托—代理理论,解决代理问题的关键是建立一套有效的激励
和约束机制,激励代理人在实现个人效用最大化目标的同时实现委托人的效用最大化 ,并有效约束代理
人的行为,使代理问题带来的损失降到最低 . 激励机制和约束机制是促进激励和约束活动发挥效力的载
[20]
体,是由一整套规则体系构成,包括激励规则、约束规则、平衡激励与约束的协调规则 .
在大数据治理的情景下,激励与约束机制的效果取决于“价值创造 ”和“风险管控 ”与经营管理人员
目标利益的相关程度,以及违反了相关要求而受到的惩罚程度. 激励与约束机制设计的重要内容之一就
是使报酬具有充分的激励数额与合理的结构 ,激励机制的实现依靠大数据资源价值创造的业绩评价和报
[21]
酬契约,让经营管理人员做出有利于实现大数据价值的行为或决策 ,降低代理成本 .
2. 3 监督机制
监督( monitoring) 是建立一种实施控制的行为方式,一般指监察和督导. 大数据治理的监督范围包括
组织之间和组织内部. 组织之间监督机制的目标是协调各监督主体 ,形成合力,达成大数据应用的合作联
盟,这依赖于组织之间存在的相关约定 . 在组织内部,当大数据治理的相关管理者因不具有剩余索取权而
不能分享由其决策而产生的大量财富时 ,在决策过程中对代理成本的监督就极为重要,如果没有有效的
[22]
监督机制,经营人员可能采纳一些与所有人利益相违背的决策 . 在大数据治理的背景下,监督机制建
立的范围不但包括多源主体之间 、所有者与经营者之间,而且包括经营者与下属管理者之间 、管理者与一
般员工之间. 监督机制就是对大数据管理工作的评估 ( evaluate) 、指导( direct) 和监控 ( monitor) ,大数据治
理的监督机制旨在评估大数据应用的战略选择 ,为大数据应用提供方向,监控大数据应用工作的结果,并
进行有效沟通. 监督机制就是有效解决如何监督的问题 ,促成大数据治理目标的达成.
3 大数据的应用特征
大数据应用特征体现了大数据资源价值实现过程中外部环境的主要特点 ,从大数据资源价值生成的
角度看,大数据资源的生命周期、利益相关者和流通特征对大数据价值实现和风险管控有重要影响 .
3. 1 大数据的生命周期
大数据应用是一个从大量低价值密度的原数据 ( raw data) 中挖掘有价值信息的过程,在这个过程中
数据的状态不断发生改变,而且每个状态都具有鲜明的阶段特征 . 对于大数据治理而言,每个阶段所关注
的重点也有所不同. 基于这样的一个事实,治理必须考虑生命周期. 大数据的生命周期是指某个集合的大
数据从采集、预处理,到归档和销毁的整个过程,强调大数据从产生到消亡全过程状态的转变以及在状态
第4 期 郑大庆等: 大数据治理的概念及其参考架构 69
转变过程中的提交物和生产物. 大数据应用的生命周期特征是一种大数据管理和应用的模型,是一种针
对大数据资源的阶段特性而进行主动干预的策略 . 大数据生命周期强调根据数据价值进行分级管理,在
[13]
最适当的阶段根据不同的应用场景提供最合适的策略 ,以保证大数据增值过程的连续性 .
围绕着大数据“实现价值”和“管控风险”的核心目标,大
数据生命周期可以概括为 7 个阶段: 大数据应用机遇扫描与
价值发现、大数据采集和预处理、大数据存储、大数据整合、
大数据分析和挖掘、大数据呈现与应用、大数据归档与销毁,
如图 2 所示. 大数据的生命周期是一个数据价值不断增值的
过程,也是一个数据产品化程度不断提升的过程. 与传统数
据分析环境相比,大数据的生命周期特征对管理和治理工作
显得更为重要,在大数据的环境下让所有的商业数据资产处
于安全、可控和受管理的状态所面对的挑战是前所未有的.
核心挑战主要来自 3 个方面: ①从理论上看,大数据的规模
没有上限; ②许多新数据的生命周期极为短暂; ③大数据具
有大量化、快速化、多样化和低价值密度的特征,所以难以保
持始终如一的品质. 大数据资源治理需要依据不同类型大数
图 2 大数据的生命周期
据在不同阶段的价值,实施不同的决策机制、激励与约束机
Fig. 2 Lifecycle of big data
制、监督机制,促成以简单、可靠、安全、有效的方式获取最大
价值,有效降低大数据资源治理的总体成本 .
3. 2 大数据的利益相关者
[23]
利益相关者是可以影响组织目标的实现或受该目标影响的群体或者个人 ,有广义和狭义之分,狭
[24]
义的利益相关者是指与企业有交换关系的合约商或参与人 ,与企业有直接的影响关系 ; 广义的利益相
[25]
关者是指能够影响企业目标实现或者能够被企业实现目标的过程影响的任何人和群体 . 从治理的角
[26]
度看,所有利益相关者共同参与公司治理会造成权责不清 ,容易陷入“泛利益相关者治理 ”的困境 ,企
业应该根据潜在利益相关者对公司稀缺资源的贡献程度 、利益相关者因公司破产或关系终结而承担的风
险或损失的大小、利益相关者在组织中的权利大小来安排公司治理 ,对优先利益相关者的诉求给予更多
[27]
的重视 ; 利益相关者的重要性也会随着政治 、经济或社会环境的变化而变化.
在大数据应用价值实现的过程中 ,多源数据导致大数据存在多个利益相关者 ,包括大数据产生者、收
[29]
集者、处理者、应用者、监督者 ,这些不同的利益相关者分别以个人、企业、政府、非政府组织等角色出
现,同一个利益主体可能扮演多个角色 ,同一个角色也可能有多个利益主体 ,造成了大数据治理的复杂局
面. 此外,与传统的数据管理关注组织内部数据相比 ,大数据更关注组织外部数据,例如口碑、评论、流言、
公开发布数据等,这些数据既包括用户生成内容 ( UGC) ,又包括公共生成内容 ( public generated content,
PGC) [10]. 基于这样的现实,大数据治理的利益相关者的重要性也发生相应变化 ,个人和监督者这两类利
益相关者变得非常重要.
个人数据是大数据最重要的源头 ,在法律层面是个人数据的主体和所有者 . 在大数据时代,个人数据
被收集、处理和使用,面临着隐私泄露的风险,因此个人成为大数据治理的直接利益相关者. 大数据应用
存在着高风险,监督者也成为重要的利益相关者,包括政府部门、第三方隐私保护组织、媒体和个人. 政府
的惩罚是对隐私泄露的有力保障 ,媒体的报道对企业的违规行为也具有震慑作用 .
基于现有研究结果,把大数据治理的利益相关者分为个人、个人数据收集者、个人数据处理者、个人
[28]
数据应用者、监督者 . 在数据搜集、存储、挖掘、预测与利用的过程中,大数据利益相关者难免会出现各
种利益矛盾,有必要建立大数据资源的多元主体协同治理机制 ,促进大数据资源的开发.
3. 3 大数据的流通特征
大数据价值实现需要多源数据的融合 ,而多源数据的融合涉及数据流通. 数据流通可以简单描述为
70 研究与发展管理 第 29 卷
4 大数据治理的参考架构
基于前文分析 ,构建大数据治理的参考架构 . 参考架构旨在阐述大数据治理所处的 外 部 环 境 的
典型特征以及大数据治理的主要对象和关键域 ,从外部环境和内部构成两个方面解构大数据治理 ,
为研究大数据治理领域的相关问题提供了一个参考逻辑框架 ,具体内容如图 3 所示 .
图 3 大数据治理参考架构
Fig. 3 Reference architecture of big data governance
在大数据资源治理参考框架中,核心要素是决策机制、激励与约束机制、监督机制,也就是大数据治
理的关键域,大数据治理体系就是建立决策、激励与约束、监督这 3 个关键领域的规则、制度和流程. 大数
据资源所具有的 3 维特征,形成了大数据资源与众不同的应用情景,也是大数据资源治理所需要重点考
第4 期 郑大庆等: 大数据治理的概念及其参考架构 71
虑的外部环境因素. 大数据治理参考框架从内部要素和外部应用特征两个方面构建了大数据治理体系的
逻辑框架,为大数据治理的相关实践和研究提供了参考 . 例如,大数据资源治理中的隐私保护问题,需要
考虑大数据所处的不同生命周期、不同的流通方式、利益相关者所组成的重要情境,建立相应的决策机
制、激励与约束机制、监督机制,从而实现妥善保护个人数据隐私的目的. 大数据治理参考架构将为分析
大数据应用提供一个比较完整的逻辑框架 .
5 总结与展望
大数据蕴含大价值,如何实现大数据的价值已经成为实践和研究的热点. 本文从治理的角度对大数
据价值实现进行了初步探索———探讨了大数据治理的概念体系、关键域及外部特征,由此构建了大数据
治理参考框架.
本文的创新主要体现在以下两个方面 . 首先,梳理了治理概念的演变,综合了当前多项关于大数据治
理概念的成果,从 4 个层面比较完整地阐述了大数据治理概念 ,这一概念体系的建立,将有助于界定大数
据治理的研究领域,以及与其他研究领域的关系. 其次,本研究分析了大数据治理内部要素和外部环境,
构建了大数据治理参考模型,为分析大数据治理领域的问题提供了逻辑框架,从而帮助业界和学者更加
全面、客观地分析和解决大数据治理领域的问题 . 随着大数据治理研究领域受到越来越多的关注 ,大数据
治理体系的设计、大数据治理与企业绩效的关系等问题将会成为进一步研究的热点 .
参 考 文 献
Abstract: Big data contains enormous social and economic value. However,how to discover and realize the value of
big data is influenced by the issue of big data governance,which is also an emerging research topic in the academic
field of data science. Based on the previous literature,it discussed the connotation of big data governance in four di-
mensions including objectives,ownership and right concerned by big data governance,objects,and solving problems.
Then,it defined the connotation of big data governance. Subsequently,the three key scopes of big data governance,
i. e. ,decision mechanism,incentive mechanism,and supervisory mechanism,were deduced after analyzing the notion
of big data governance. Furthermore,it subsequently elaborated on the three characteristics of big data application,in-
cluding long life cycle of bid data,multiple stakeholders of big data,and the different types of big data exchange. In
the end,combing the three characteristics and three key scopes in big data governance,it offered the open reference ar-
chitecture of big data governance to guide the ways to solve the practical problems and direct the future research in big
data governance.
Keywords: big data; big data resource; big data governance; key scope; life cycle; stakeholder