You are on page 1of 257

更多免费电子书搜索「雅书」 https://yabook.

org
内容简介
2015年,美智讯公司与沈浩老师合作撰写了国内较早的一本Tableau中文书《触手可及的大数据分
析工具:Tableau案例集》。该书经过了多次重印,发行甚广。看到书籍如此受欢迎,我们很受鼓舞,于
是推出了这本书。
全书共分为四个部分,分别是产品主题分析、客户主题分析、营销主题分析、技术扩展主题。
本书偏重于商业分析思路的讲解,采用6个人物场景对话的方式讲授商业问题。每一章的结构是:先
抛出商业环境中一个真实的具有挑战性的业务或需要决策的问题,然后提出解决问题的思路并得出结论
(即“分析思路”部分),再介绍如何用Tableau实现其中的关键部分(即“技术实现”部分)。“分析
思路”部分,通常与具体的软件工具无关;Tableau“技术实现”部分,如果用到了R或Kettle等相关软
件工具,则在相应节中呈现详细的操作步骤。
本书适合企业中从事数据分析岗位1~3年的职场人员作为自学教程,也适合作为大中专院校相关专
业的教学参考书,也适合社会上的商业分析类培训机构作为教材使用。

未经许可,不得以任何方式复制或抄袭本书之部分或全部内容。
版权所有,侵权必究。

图书在版编目(CIP)数据

Tableau商业分析从新手到高手 / 美智讯(Bizinsight)著. —北京:电子工业出版社,2018.6


ISBN 978-7-121-33836-6

Ⅰ. ①T… Ⅱ. ①美… Ⅲ. ①可视化软件 Ⅳ.①TP31

中国版本图书馆CIP数据核字(2018)第046257号

策划编辑:张慧敏
责任编辑:牛 勇
印 刷:
装 订:
出版发行:电子工业出版社
北京市海淀区万寿路173信箱 邮编:100036
开 本:787×980 1/16 印张:16 字数:358千字
版 次:2018年6月第1版
印 次:2018年6月第1次印刷
印 数:3000册 定价:79.00元

凡所购买电子工业出版社图书有缺损问题,请向购买书店调换。若书店售缺,请与本社发行部联系,联
系及邮购电话:(010)88254888,88258888。
质量投诉请发邮件至zlts@phei.com.cn,盗版侵权举报请发邮件至dbqq@phei.com.cn。
本书咨询联系方式:010-51260888-819,faq@phei.com.cn。
推荐语

数据可视化是一架有效连接数据和应用的桥梁。无论是高级的分析人员,还是业务高
手,擅用可视化技术,都可以提高挖掘数据信息的效率以及增加决策的准确性。

关于可视化的工具有很多,所需掌握的软件操作也并不难。但掌握了各种快速展现数据
的方法,这仅仅是一个开始。想要更有效地利用数据,需要很多的分析经验、行业知识以及
流程型框架的方法论。

这些知识的获得,需要大量的实际案例积累与总结。美智讯(Bizinsight)公司的团
队,愿意在工作之余,将工作中可传播的知识和脱敏的数据总结成案例,传播数据可视化分
析的思路与经验,算是难能可贵。

前人栽树,后人乘凉。祝愿各位读者可以利用本书的案例和经验,拓展自己的思路,在
工作中快速成为高手,让数据可视化技术发挥出更多的价值。优质化的数据分析是迈向AI的
重要途径,Bizinsight团队做到了,大家一起来欣赏吧!
—— 谢邦昌
台北医学大学管理学院院长,大数据研究中心主任
中华数据挖掘协会(Chung-hua Data Mining Society,CDMS)理事长

近几年,我将许多时间花在了算法建模与工程级应用上,带博士的方向也从“传播学”
转到了工科为主的“媒体大数据与社会计算”。成功的大数据分析项目,至少是三方面的综合
效果:科学的模型与算法、支撑大数据运行的软/硬件架构、贴合实效的商业分析闭环。

如果将时间投入到特定的算法学习中,掌握一定的建模技能并不难;同时,低成本技术
架构为企业提供弹性算力支撑的平台已日渐成熟。多数企业的人才队伍中,只需三五位数据
科学家钻研模型、算法与架构,其余大部分数据分析岗位分散于各工作流程,每日解读从商
业智能、机器学习、物联网等系统传回的结果,将其融入商业运作之闭环并监控实施效果。

更多免费电子书搜索「雅书」 https://yabook.org
如今正在从事数据分析工作的人员,大多数并没有统计学、计算机科学和数学专业背
景。同时,多数高校的生物学、医学、环境科学、经济学、社会学、管理学等学科,也已经
开设了多门大数据课程。究其原因,因为数据分析岗位最需要复合型知识与管理思路。

这本《Tableau商业分析 从新手到高手》推荐给正在从事数据分析岗位的职场新人。祝
愿读者们完成数据探查、落实分析思路,以及绘制图表的速度能够提升。如果部分读者已经
掌握了SPSS、SAS、R与Python等分析工具,那就更好了,快向深度学习进发吧!
—— 沈浩
中国传媒大学新闻学院教授 博士生导师
中国传媒大学调查统计研究所所长 大数据挖掘与社会计算实验室主任
中国市场研究协会(CMRA)会长
国家信息中心评选之“十大最具影响力的大数据领域学者”

Data(数据)的字根源于拉丁文Datus一词,意为“给予”“交付”。例如这本书是通
过Thomas交给我的,拉丁文就是“ Hic liber mihi a Thomas datus est.”从这个角度来了解
数据,可以发现数据的本质和Datus的相似之处: 能够给予不同对象相对应的价值。

数据本身必须根据使用目的,通过适当梳理、分析和可视化,才能够萃取其中的价值
并采取相对应的行动。利用Tableau强大的可视化功能以及整合其他开源软件的能力,能
迅速、有效地执行这些程序,传递数据的重要价值。这本《Tableau 商业分析 从新手到高
手》,从商业目标回推所需的分析架构与可视化方式,聚焦分析客户、产品、营销活动等商
业上常碰到的主题,利用数据分析的方式,提升商业效率。

如果说《Tableau商业分析一点通》是一个指南针,那么现在你手中的这本书就如藏
宝图:前者让你不会在Tableau的强大功能中迷失方向,后者则能告诉你如何找到你要的
商业宝藏。善用它,就可以帮公司挖掘出那些蕴藏在数据底下的商业价值,实现利用数据
(data)最原始的初衷。
—— 林雨旸
“2017 Tableau可视化分析争霸赛”上海站冠军
Tableau
商业分析 从新手到高手

数据分析越来越成为一种技能,而不是职业。业务人员与数据分析师二者的界限逐渐
模糊,大多数的企业需要的是“懂数据的业务”或者“懂业务的数据分析师”。本书通过
轻松的场景对话形式,用Tableau解决常见的商业问题。一方面通过Tableau帮助业务人员弥
补技能树中数据能力的缺失,另一方面将数据分析师带入生动的商业分析场景,避免沦为
“CTO”——首席提数官。
—— 赵龙飞
“2017 Tableau可视化分析争霸赛”北京站冠军

IV
这本书以问题为导向,由浅入深地将技术专题和精辟的分析思路嵌入逼真的典型商业
分析场景中,为读者讲解如何使用Tableau——这个几乎能够提供一站式数据解决方案的软
件——跨越商业分析过程中遇到的工具和技术障碍。

书中故事性的技术讲解方式精巧高妙,注重学习效果的同时,也充分地关注了读者的学
习体验。这与慧科集团长期在国家“教育部”和“工信部”的支持下协助高等院校以“产教
融合,协同育人”方式培养面向新兴科技领域人才和向企业提供急需人才过程中所坚持的教
育服务理念高度相似,值得每一位教育者和技术布道师借鉴。
—— 叶风哲
慧科研究院高级研究员

在对比了Qlik、Power BI和Tableau 的“Server+Deskop”部署的综合成本、学习曲


线、服务支持等因素后,我们最终选择了Tableau。

Tableau 在数据驱动公司战略转型的过程中,即时、高效地发挥了良好的推动作用,真
正地帮助我们快速发展和创造价值。Bizinsight在商业智能数据分析方面具有丰富的实战经
验。本书的每一章均通过实际案例来讲解,其中的操作思路和方法对于数据分析工作具有十
分重要的借鉴和启发意义,值得推荐。
—— 蔡永健
奥鹏教育大数据

让数据会说话!本书运用“5W1H”的逻辑模式,告诉大家Tableau的正确使用方法和
强大功能。

它仅仅是对现有数据的图表展示?不,对数据分析人员来说,更重要的是如何预测未来
数据的变化趋势。

本书针对多种不同商业分析场景,对不同岗位的人群如何使用Tableau进行了解读和指
导,为业务人员使用数据提供保障。本书让业务人员在不需要骚扰开发者的情况下,可以快
速地完成数据分析工作。
—— CDA数据分析研究院

一本BI商业智能分析领域的好书!

这是一本专门介绍如何使用Tableau做数据分析的书。书中案例的样本数据真实,涵盖
行业广。即使没有IT基础,也能从中体验到数据分析的乐趣。在大数据时代,每个企业都有
推荐语

对数据分析的需求,中国大数据分析师(BDA数据分析师)是国内从事数据分析工作的主要力
量,关注如何为企业快速高效提供数据信息。作为一名 BDA数据分析师,本书值得关注学习。
—— 张良


中经数(北京)数据应用技术研究院

更多免费电子书搜索「雅书」 https://yabook.org
序言一

DT时代,数据正成为越来越重要的财富,更多的企业和个人将利用数据创造新的价
值。如今,善用数据的能力已经成为一种新的生产力,而数据,也已经成为从个人到企业的
最大生产资源。

大数据的核心不是“大”,也不是“数据”,而是蕴含在其中的商业价值。作为挖掘数
据背后潜在价值的重要手段,商业智能和分析平台成为大数据部署中的关键环节。然而,获
取价值的难点并不在于数据分析应用的部署,而在于专业数据分析人才的缺乏。长久以来,
企业的大量数据主要被IT部门所掌管,业务部门或者分析人员如果要进行一些数据探索分
析,或者即使只是增删一些简单的报表,往往都需要其他部门配合与审查。整个 “流程之冗
杂,周期之冗长”,相信企业内做过数据分析工作的人都会深有感触。

但数据恰恰在业务和分析人员手中,才有价值产出,它需要与业务人员或分析人员的经
验、行业知识以及现实商业背景信息结合起来,才能发挥更大的作用。否则只能产出堆积如
山的“僵尸报告”。在此背景之下,人们需要一种工具能帮助更多的人读懂他们的数据,并
且释放其中潜能。

而Tableau作为现代化的数据分析工具,帮助人们更便捷地实现数据的可视化分析,从
而充分挖掘数据之中蕴含的信息和知识,提供业务决策支持,为企业和组织带来实实在在的
价值。在Gartner 2018年《分析和商业智能魔力象限》报告中,Tableau已经连续第六年被列
为“领先者”,并被评为“直观交互式可视化分析的黄金标准”。

正如Tableau首席产品官Francois Ajenstat所言,“我们的使命在于降低数据分析的门
槛,让每一个人都能成为数据分析师,让人们跟数据进行互动,使数据成为一种语言。”

Tableau自2015年进入中国市场以来,已经被越来越多的用户接受和认可。在“互
联网+”的时代中,许多中国企业的互联网应用已经走在了世界前列。Tableau能够帮助商
业分析师们在数据中掘金,帮助企业通过数字化转型加强服务客户和社会的能力。
Tableau代表了数据分析技术发展的趋势,满足了企业的自助服务的可视化需求。它不
仅支持无缝整合到企业的现有环境,实现轻松部署和管理,由IT 助力,确保必需的数据安
全和完整性;又能够实现业务所需的自助式服务,可实现数据的最大价值,备受业务部门推
崇。

这本书使用职场实际案例和经过脱敏的客户数据来演示Tableau的使用和所带来的商
业价值,这正是我们喜闻乐见的。期待越来越多的Tableau本地商业应用案例为用户打开思
路,开启各自精彩的Tableau数据可视化与分析旅程。

—— 叶松林(Thomas Yap)
Tableau 大中华区总经理

序言一


VII

更多免费电子书搜索「雅书」 https://yabook.org
序言二

“商业分析”是什么?为什么近两年,IBM、SAP、Oracle这些世界知名的软件大
品牌,纷纷将旗下的软件事业部进行大规模整合,组建了一个前所未有的庞大的“BA
(Business Analysis,商业分析)部门”?这个部门不仅纳入了商业智能、统计分析、数据
挖掘、数据可视化等软件产品线,而且将数据管理、数据存储甚至中间件的软件产品也纳入
了商业分析解决方案的可选范围。

“商业分析”听起来既不时髦又不牛,为何在“大数据”一词铺天盖地的时代,大公司
们在调整商业布局的时候,选择了回归最朴实的定义,以最谦虚的姿态、最严谨的方式,组
织多条软件产品线,不惜重金堆砌“分析云”“智慧云”等,进行最严肃的应对?

我们无时不刻地从事着商业活动,每一次商业活动的成败,都是一系列决策的结果。作
为普通的消费者,站在超市的货架前,我们买什么牌子的牙膏,不过是十块钱的选择而已,
可对品牌商来说,如何让更多消费者将手伸向自己,就是企业最大的决策。

为了这个最大的决策,企业持续投入了大量资金获得第一手的销售和运营数据:ERP、
CRM、SCM、OA、KM等;同样持续投入了大量资金获得第一手的市场情报:问卷调研、
深度访谈、神秘顾客、民族志记录、微博/微信、声量采集等;然后再付出巨额的广告费,建
构合适的形象与故事,购买合适的时段与位置,在我们向品牌伸手之前的经意或不经意间,
影响我们的决定。

这是一条看不见的流水线:随着智能设备的大量应用,计算资源被全面打通,实时推
送、精准营销、场景营销不一而论,消费触点遍布于网络、存储、服务器的每个环节。每个
人都身处其中,我们的消费习惯、打字速度、朋友姓名与交往温度,被混合成标签,填充入
二维码,成为我们与世界交互的名片,每一次发送,世界的某个节点抓住了这信号,便即刻
返回几项产品或服务供我们挑选……

这不是《三体》,这是当下硝烟弥漫的商业战场。这条看不见的流水线如此庞大,又如
此重要,以至于企业的IT部门与业务部门从未像现在这样感觉到压力又无所适从。IT人员总
有应接不暇的技术挑战:实时反馈、自动处理、智能应答、自适应屏幕、跨操作系统、持续
集成、连续上线、预测性维护、轻量级开发……业务人员也不得不学习与掌握产品化思维、
创新性设计、客户中心化与去中心化、云应用、小程序……

中国是这场商战的中心,13.5亿人口的互动,信息量与交易额一次次吸引全球惊诧与羡
慕的目光。中国率先于2016年9月在G20峰会上第一次对数字经济给出了官方定义:数字经
济是指以使用数字化的知识和信息作为关键生产要素、以现代信息网络作为重要载体、以信
息通信技术的有效使用作为效率提升和经济结构优化的重要推动力的一系列经济活动。

好吧,咱们既生逢其时,又时运不济。假如读者你正好投身于滚滚数流之中,准备开始
自己的商业分析之路,恐怕你既要学习怎么用企业内部“高大上”的成熟业务系统,也要知
道那些流行的互联网开源框架诸如LAMP(Linux,Apache,MySQL,PHP)、Hadoop等。
不仅要懂管理,什么领导力、思维导图、项目管理等,而且要懂技术,从软件开发、云服
务、信息安全到人工智能与深度学习,全都准备着学习一遍。也许在这个过程中,你将产生
成千上万“与数据相撞的美妙瞬间”,也许你将迷失在“无序复杂的数据黑洞”中,最后全
部努力与艰辛,被越来越严峻的个人数字经济风暴逼成了大写的“囧”……

Tableau诞生于2005年,相比19世纪中期已经面世的一线软件公司而言,Tableau横空
而来,一出生便自带光环与能量(斯坦福的统计分析思路 + Pixar动画的美工功底与数字技
术)。Tableau毫无负担地全然专注于自己的技术路线,这种专注带来了全新的敏捷BI体验
与连续六年在Gartner Quadrant上排名第一。

希望它能帮助刚踏上商业分析之路的你,轻装上阵,从容应对,将数据变得灵动,让
分析成为乐趣。同时,请保持你开放的心态,迎接世界知名软件大牌们的王者归来,因为
Tableau这个新兵,还在完善底层数据准备与嵌入大数据算法的道路上狂追猛跑。无论谁领
跑,懂商业分析的你都会是赢家。

阅读本书,你将发现,你以为自己正在学软件,后来发现其实正在学数据分析思路;你
以为自己是在学数据分析思路,后来发现其实正在理解商业应用场景;终于当你以为自己实
现了商业理解时,不知不觉中,你将渴望改变视野,成为数字化转型与商业创新中的一员。
到那个时候,恭喜你,终于跟上了“数字经济”发展的节奏:万物互联,广阔的数据海洋碧
波荡漾,商业分析是助你成功道路上的一阵好风、一片好桨,它将帮你在“双11”中省钱,
在职场上吃香……

如何阅读本书
序言二

现在你看到的这本《Tableau商业分析 从新手到高手》,是我们编写的Tableau系列之
职场版,适合正在企业的各个业务部门里从事数据分析岗位1~2年的职场新人。

2015年我们曾经组织编写《触手可及的大数据分析工具:Tableau案例集》,这是一本


IX

更多免费电子书搜索「雅书」 https://yabook.org
详细讲解软件操作界面与案例使用过程的书籍。2017年我们使用Tableau 10.5版本撰写了升
级版《Tableau商业分析一点通》,更新了数据源和部分案例,它比较适合面向初次下载软
件、准备熟悉操作的用户以及高校学生使用。

这两本书的结合,将带来不一样的阅读体验。《Tableau商业分析 从新手到高手》偏重
思路,《Tableau商业分析一点通》偏重操作。

Bizinsight团队是国内最早专注于商业分析的团队,希望了解或加入我们,敬请打开网
站www.bizinsight.com。

何业文
2018年4月

轻松注册成为博文视点社区用户(www.broadview.com.cn),扫码直达本书页面。
yy 下载资源:本书如提供示例代码及资源文件,均可在 下载资源 处下载。
yy 提交勘误:您对书中内容的修改意见可在 提交勘误 处提交,若被采纳,将获赠博文
视点社区积分(在您购买电子书时,积分可用来抵扣相应金额)。
yy 交流互动:在页面下方 读者评论 处留下您的疑问或观点,与我们和其他读者一同学
习交流。
页面入口:http://www.broadview.com.cn/33836
Tableau
商业分析 从新手到高手

X
致谢

本书所甄选的案例数据虽然经过了脱敏,但商业场景却都是真实的。这些真实场景的描
述离不开来自客户的鲜活案例,在此诚挚感谢给予Bizinsight业务机会的诸多客户,这些企业
分别是它们所在行业的翘楚。出于商业保密的原则,书中没有列出企业的名称并逐一道谢,
但衷心祝愿每一家企业都保持着与Bizinsight同行时的学习型组织与数据分析文化,在数据驱
动越来越重要的今天持续领航!

本书的撰写来自Bizinsight优秀的商业分析师团队,赵智承担了其中大部分章节的撰写
工作,袁勋、罗祎、彭婉婷和胥倩倩均有独特贡献。感谢马俊杰与杨琼为本书更新了“T+社
区”(www.tableauhome.com.cn),这是一个为读者提供案例数据、学习视频、Tableau
模板以及可以分享模板挣钱的社区。

本书的作者团队在确定案例深度与广度上进行过多次讨论,考虑到这是Tableau之大数
据系列的首本,我们最终将其定位为思路为主,技巧为辅的状态。数据分析能力的提升,是
一个工作经验与知识积累的过程。无论别人如何仔细描述,不是自己的案例,都很难重现商
业环境中决策性思考的具体过程。在此预祝读者在阅读之后,在工作中实践数据分析技能。
鉴于有限的撰写时间,书中存在错误在所难免,恳请读者发现问题后,在微信公众号“数据
艺术家”中留言,为我们提供宝贵的意见和建议。在此诚挚感谢!

最后感谢电子工业出版社策划编辑的持之以恒,要不是你们的提醒(唠叨)与鞭策(催
促),本书不可能面世。非常感谢技术编辑们花费大量时间完成了书籍的修订与排版,很难
想象非数据专业背景的你们纷纷“秒懂”这样的一本书籍,所以说,编辑们都是学习力很强
的超人。

撰写人:何业文

Bizinsight 创办人,“博易智讯”与“美智讯”均为旗
下品牌。十二年专注于数据挖掘与数据可视化,经济学、
统计学、传播学背景。致力于用最适合的思路,最好用的
工具完成商业分析,实现决策支持…… “数据艺术家”公众号

更多免费电子书搜索「雅书」 https://yabook.org
前言

本书讲什么
本书主要讲解Tableau的使用方法,而不是Tableau的操作方法。

Tableau作为一个操作简单的可视化分析软件,在连接好数据后,通过拖曳鼠标很快就
可以获得一幅可视化作品,至于它是美观或者丑陋,取决于你的审美能力和一些运气。但无
论怎样,快速生成图形仅仅是Tableau提供的能力,并不是它存在的主要价值。

数据是一种数字化的信息承载形式。只有使用者通过工具处理数据,从中捕获到需要的
信息,并且使用信息指导了现实的行动,才会让数据产生价值。

可视化技术的主要目标是帮助用户高效地捕获数据中的信息。掌握了Tableau的各种功
能,能够制作各种数据图表,并不算是会用软件。将软件作为一种工具,熟练地操作和探索
数据,发现有价值的东西,才是软件的使用之道。

所以,我们尽量还原了一些现实商业分析场景,展现了在这些场景下如何结合数据和
Tableau的可视化技术,对多种商业问题进行探索和解答。希望通过这样的方式让读者更容
易学会使用Tableau,快速成为一名合格的分析师,而非软件操作匠人。

基于这样的目标,本书每个部分的开始,都是先结合数据图表进行某种商业分析。分析
逻辑有时候简单,有时候复杂,有时候没有获得确定答案,但这就是商业分析环境的现实情
况,我们尽量把它还原出来,以帮助读者了解在真实分析环境中,如何更好地使用Tableau
解决问题。

本书在深挖软件能力的同时,也展现软件的局限在哪里,以及如何结合其他工具和技术
更好地解决问题。当然,本书主要内容还是关于Tableau的,对其他技术的介绍,更多的是
给读者一种信息线索,指出Tableau和其他相关工具组合运用的方向。

数据分析师必须是践行者,所以在每个分析思路的后面,阐述了可视化图形的实现方
式。文字上,这两部分没有糅合到一起,因为软件的实现操作和对数据图形的观察分析,本
质上是两种思维,我们不希望两种思维互相干扰。

这种文字结构另外的一个好处是,避免技术高手重复阅读自己已掌握的知识(对软件非
常熟悉的用户,看到图形一般就已经知道如何实现,重复阅读操作过程是浪费时间)。

案例数据及商业场景的设定
常见数据软件的操作案例,使用的数据要么是一些玩具性质的数据集1,只能演示软件
功能,反映不出分析师面对的现实复杂情况和软件功能的现实意义;要么是国外的一些公开
的数据集,国内的用户进行学习的时候,很难进行场景代入,分析也没有感觉。

本书内容融合了很多项目的现实经验,全书案例都是基于真实商业场景重新构建的数据
集,所用数据,除规模缩小、对关键信息进行脱敏以保证合法使用外,数据中的模式基本保
留了“原汁原味”2。依托于这些数据,书中尽量重现了Tableau可视化技术在各种现实商业
环境下的应用,希望能带给读者一些有价值的启发,帮助大家迅速建立起实战能力。

具体来讲,本书案例主要包括以下商业分析场景:

产品分析
yy 产品线优劣的分析
yy 销售时间变化模式的分析
yy 产品价值分析
客户分析
yy 客户的合理分群
yy 客户留存分析
yy 客户生命期分析
yy 产品促销反应分析
营销效果的分析
yy 媒体的营销价值分析
yy 不同营销策略的对比测试
yy 购物篮分析
商品评论分析
yy 电商平台产品评论的综合分析(文本分析)
前言

1 为了演示某种软件功能,人为生成的非常小的示例数据集,没有任何现实意义。
2 不仅保留了原始结构特征,也保留了原始的错误,这样读者才能了解真实的企业数据可能有多“糟糕”,


认识了真相,才会具备应对现实生产环境的能力。

XIII

更多免费电子书搜索「雅书」 https://yabook.org
重要说明:
现实商业环境的复杂性和解决方案的细节,远远超过本书所阐述的内容范围。从分析上
来说,不同企业的细节各不相同,可借鉴意义并不大。所以本书舍弃了很多细节,尽量陈述
了比较通用的思维框架。读者参考案例进行实际分析时,可以参考主要思考逻辑,但细节需
要结合各自情况因地制宜地做出调整。

Tableau的正确使用方式
Tableau自诞生之日起,就不断地被用来与Excel、Power BI、D3等各种作图相关的软件
对比,这充分证明了Tableau的影响力,但同时也说明了大家对它的误解。虽然官方在不断
重复“敏捷的自助式分析”的初衷,但看来多数用户并没有充分理解Tableau官方宣传中所
传达的信息。

需要一种工具:能够快速灵活地连接和整合数据,提供简单的方式实现从不同的角度观
察研究数据,计算和展示不同的指标,获得的结果应该能够马上分享,获取反馈,并推进后
续的分析。

Tableau的设计初衷就是搭建这种工具,无论业务人员是自己连接数据进行分析,还
是需要和其他相关人员分享和探讨结果,都可以在Tableau体系中简单快速地完成(随着
Tableau版本的不断更新,这种特性更加突出)。

理解了这些,你就会意识到Tableau软件提供的标准筛选控件,各种动态数据交互的展
示方式,快速搭建“仪表板”和“故事板”能力所带来的效率,也更容易理解由于组件标准
化造成的一些灵活度上的限制。本质上,Tableau是为业务人员准备的,是以灵活的可视化
的方式“玩”数据的工具,而不是为开发者准备的产品再开发工具。

任何软件都不是万能的,虽然总有一些“大神”级别的人物,给出各种出乎意料的解决方
案,完成各种软件提供的标准能力之外的任务。但我们应该明白,这些非常规的解决方式一定
是有代价的,要么是工作量的增加,要么是软件效率的低下从而导致无法进行大规模部署。

正常的用户应该详细了解一个软件的初衷、优势以及能力的边界,才能用好软件。所
Tableau

以,Tableau的用户也应该知道如何正确地使用它,才能最大化地发挥其能力。虽然有人用
Tableau绘制“维纳斯”,但理智一点来说,还是应该充分利用它数据探索的敏捷性,利用
商业分析 从新手到高手

它交流和展示数据信息方便的交互性,这样才能发挥它最大的价值,物尽其用。

书写约定
下面是说明书中使用的一些术语的书写格式,方便帮助读者快速理解内容。

(1)Tableau工作区界面术语约定,如图1和图2所示。

XIV
图1 工作界面的术语约定

图2 数据源界面的术语约定

如果你曾经阅读过2015年出版的《触手可及的大数据分析工具:Tableau案例集》,可跳
过此页,相信你对Tableau的界面已了然于胸。

(2) 技术方面的扩展知识单独设有“拓展技术专题”体例。
(3)对数据的操作说明中,为了避免软件操作动作和操作数据对象的混淆,所有数据
前言

字段(有时称为变量)都使用符号“『』”括起来,格式为『字段』。

(4)在文字说明中,软件内部需要输入和配置的内容用双引号括起来。例如,在公式


XV

更多免费电子书搜索「雅书」 https://yabook.org
面板内输入公式“{fixed[二级品类]:SUM(销售数量)}”。

(5)操作说明文字,涉及软件界面内的单击、拖动操作的组件,采用加底纹的格式,
例如,单击确定按钮。注意,不同于传统的软件,越来越多的软件为了提高操作效率,除标
准的“菜单”和“按钮”组件外,在软件内不同位置的很多“组件”都提供了鼠标单击、双
击、拖动等新的操作方式,本书对于这种“组件”,在文字描述中采取相同格式进行标示,
例如,单击标记面板中的颜色项。

书中主要人物介绍
作为一本技术书,用人物场景对话的方式引出一些分析主题,好像不太正式。但很多丛
书已经证实,这种不太“正式”的方式,有助于避免学习的枯燥,帮助读者理解抽象的技术
主题,提升记忆效率。毕竟我们的大脑总是输入一些陌生的技术词汇,难免会引发瞌睡虫
泛滥。

为了让读者不至混乱,图3展示了书中主要虚拟人物关系图,其中还展示了每位人物的
技术能力和行业背景,方便读者快速理解对话主题。

ѫ㾱Ӫ⢙৺
ᐕ֌㛼Ჟ

Րᦸ㘵 ᆖҐ㘵

ẵѭ㦾
㩗ዊ བྷေ 呿䖹 ᵟᵟ ၌၌
Lisa
Tableau

୶ъ࠶᷀亮䰞 ᮠᦞ᥆ᧈ࠶᷀ᐸ
ᐸ ૆஑ᓇᓇ䮯 ᮠᦞ࠶᷀ᐸ ᮠᦞᓃᐕ〻ᐸ ⭥୶亩ⴞ㓿⨶
ᶕ㠚૘䈒‫ޜ‬ਨ о㩗ዊᱟ਼һ
һ ᐲ൪㩕䬰ᵜ、∅ъ
ᐲ൪㩕䬰ᵜ、∅
ᐲ ∅ъ ㇑⨶ษ䇝⭏ 呿䖹Ⲵ਼ᆖ оབྷေਸ֌䗷
о
商业分析 从新手到高手

图3 书中主要人物介绍

下面,让我们从认识书中角色开始我们的数据分析之旅吧。

位于三里屯SOHO的这家Costa咖啡店原来充斥着一种慵懒的气息,多数是文化界和媒
体的人到这扯皮或小憩。如今周边的文化公司多数都搬走了,政府批准了园区内企业享受高
科技税收优惠,于是一批软件公司搬了进来,咖啡店里也经常有IT工程师来这写代码,还有
一些软件产品的小型发布会或技术研讨会在这里召开,无形中,懒散的氛围中逐渐掺杂了更

XVI
多的理性气味,节奏也快了许多,别有一种新气象……

最近,一群热爱数据可视化和数据分析的人把这作为了聚集地,不定期地约着来喝咖
啡,说的都是销量预测、KPI、计算函数、数据整合之类的话题,这引起了店长Lisa(梅丽
莎)的注意。

Lisa,1994年生人,被父母送到澳洲完成了市场营销本科学业,回国后因为喜欢咖啡,
求职到Costa工作。因为咖啡闻得准,手脚麻利,大半年前刚刚荣升了三里屯店的店长。店
长这个工作,除了要求会做咖啡,还得管销量、管排班、管采购、管优惠券的推广……据说
她使用了洪荒之力记住了许多到店客人点单的喜好,于是带来了店里一季度月均接近两位数
的业绩增长。总部通知说,正在考察她,想调她进入销售部,配合市场部完成新媒体促销的
设计。

最近常来店里的一位20出头的小伙子和一位30左右的职业女性,一直聊产品分析的问
题,Lisa一直想搞清楚书本的营销理论如何结合现实数据方法,也想学学产品分析怎么做,
于是借着共同的咖啡爱好,干脆和他们俩交上了朋友。

小伙子名叫鹏辉,每次换着花样地戴X-Large的大猩猩帽子,这让Lisa很快就记住了
他。他在一家国际知名的老牌服装企业BestCloth工作,该公司旗下全球男装、女装、童装
品牌一共有12个,其中在中国销售的4个主打品牌价格比较亲民,因此曾一度开店近6000家
且占据了各大商场里流行服饰馆的黄金铺面。随着中国年轻一代消费者需求的变化,彰显个
性的小众潮牌以及无牌有品的淘宝货的冲击,让这家老牌的服装企业不得不重构自己在中国
区的业务。

鹏辉在上海财经大学完成学业后,作为校园招聘生进入BestCloth销售部,配合主
管进行销售数据的分析。据他的老板说,BestCloth最后选中他的原因是他的简历里写着
“Tableau软件操作熟练”,这个软件是上海财经大学统计实验室的标配,也是BestCloth的
常用软件。

尽管算是名校毕业,可毕竟是“小白”,工作这一个月,压力大得让鹏辉快要喘不过气
来了。他发现自己会的那点儿Tableau的简单操作在庞大的IT架构面前不过是蜻蜓点水,而
BestCloth日平均15万笔的交易记录也远超实验室的那点儿Excel表格数据。

坐在鹏辉对面的女性被他称为“萧岚老师”,有时候也单独来买咖啡。她应该也在附近
办公,Lisa知道每个月他们公司都包下来咖啡店的第二层举办一到两场技术研讨会,萧岚经
常作为讲师谈一些数据分析指标。鹏辉算是萧岚在技术研讨会上认识的小粉丝。

还有几位人物在后面会经常出现。
前言

大威:萧岚老同事,身为数据挖掘分析师,可视化技术很牛。作为可视化人员,又精通
数据挖掘,用自己的话说属于“遭老板爱,招同事恨”的角色。


XVII

更多免费电子书搜索「雅书」 https://yabook.org
术术:鹏辉的同学,热爱IT技术,工作主要是IT技术支持,但经常给分析师提供数据支
持,对数据相关的技术也有一定的钻研。视大威为偶像,正努力成为“斜杠青年”。但对
“师傅”大不敬,口头禅是:“……但我代码写得比你快!”

娜娜:企业电商项目经理,统筹管理内外部项目对接,对数据应用的整体技术构建和流
程很了解,但技术实施细节不是非常清楚。

通过他们在咖啡厅的讨论和分享,我们将逐渐了解到书中的各种可视化分析主题……
Tableau
商业分析 从新手到高手

XVIII
目录

第一部分 产品主题分析

第1章 见微知著:快速了解产品线状况 / 3

1.1 分析思路:两个女装品牌的产品线分析(1.0版) / 4
1.2 技术实现:应用Tableau实现1.1节的分析 / 7
1.3 拓展技术专题1:盒须图 / 17
1.4 拓展技术专题2:Tableau连接其他数据库 / 17

第2章 对比出真知:如何评估产品线的优劣 / 19

2.1 分析思路:两个女装品牌的产品线分析(2.0版) / 19
2.2 技术实现:用Tableau实现2.1节的分析 / 21
2.3 拓展技术专题3:数据清理 / 28

第3章 穿越时空:结合时间发现销售模式的特征 / 31

3.1 一年销售期产品混合线图分析(不合理的方法) / 32
3.2 长周期分组分析(萧岚的分析) / 35
3.3 技术实现:用Tableau实现3.2节的分析 / 37
3.4 拓展技术专题4:根据数值等级自动分组 / 42

更多免费电子书搜索「雅书」 https://yabook.org
第4章 是否赔本赚吆喝?产品价值如何综合评估 / 44

4.1 产品促销情况的初步探查 / 45
4.2 数据预处理工具:Kettle / 47
4.3 Kettle的数据处理过程 / 50
4.4 产品促销价值的再分析 / 55
4.5 技术实现:用Tableau技术实现综合分析气泡图 / 58

第二部分 客户主题分析

第5章 拒绝平均人:对客户进行合理的分群 / 65

5.1 分析思路:依据行为将客户分群 / 66
5.2 技术实现:用Tableau技术实现5.1节的分析 / 75
5.3 拓展技术专题5:直方图和散点图 / 86
5.4 拓展技术专题6:Tableau与R语言 / 87
5.5 拓展技术专题7:聚类分析 / 89

第6章 重塑客户漏斗:研究客户流失模式,识别关键因素 / 91

6.1 分析思路:客户留存漏斗分析 / 91
6.2 技术实现:用Tableau技术实现6.1节的分析 / 97
6.3 拓展技术专题8:分析的数据粒度 / 103

第7章 简约不简单:RFM分析与客户生命期分析结合 / 105


Tableau

7.1 分析思路:关于客户生命周期的分析 / 106


商业分析 从新手到高手

7.2 技术实现:用Tableau技术实现7.1节的分析 / 111

第8章 你之蜜糖,我之砒霜:不同客户对价格优惠的态度观察 / 118

8.1 分析思路:优惠券的使用情况分析 / 119


8.2 技术实现:用Tableau技术实现8.1节的分析 / 126

XX
8.3 拓展技术专题9:价格弹性 / 132

第三部分 营销主题分析

第9章 抛弃糊涂账:如何衡量媒体的营销价值 / 135

9.1 分析思路:媒体的测量和筛选 / 136


9.2 技术实现:用Tableau技术实现9.1节的分析 / 141

第10章 不猜测,不盲从:A/B测试分析 / 149

10.1 分析思路:新套装促销的 A/B测试 / 150


10.2 分析思路:用Tableau实现10.1节的分析 / 155
10.3 拓展技术专题10:A/B测试 / 163

第11章 大巧若拙:重新认识购物篮分析 / 164

11.1 分析思路:购物篮分析 / 165


11.2 技术实现:用Tableau技术实现11.1节的分析 / 168
11.3 拓展技术专题11:购物篮Lift(提升)指标 / 176

第四部分 技术扩展主题

第12章 人言可畏:快速捕获客户对产品的关键评价 / 180

12.1 获取评论数据 / 181


12.2 相关软件安装及介绍 / 182
12.3 R语言的中文分词及处理 / 185
12.4 应用Kettle进行后续处理 / 186
12.5 技术实现:分词文件的Tableau可视化分析 / 190
目录

12.6 拓展技术专题12:文本分析的要点与难点 / 204




XXI

更多免费电子书搜索「雅书」 https://yabook.org
第13章 设计仪表盘:谁敢说自己不是“外貌协会” / 206

13.1 报表的设计原则 / 206


13.2 报表的美化 / 214

第14章 使用与管理Tableau Server:分享意味着价值 / 221

14.1 Tableau Server概述 / 221


14.2 Tableau架构概述 / 222
14.3 用户访问架构 / 223
14.4 大小调整和可扩展性 / 224
14.5 Tableau Server管理模式 / 224
14.6 Tableau Server管理工具 / 225
14.7 安全性 / 225
14.8 Tableau Server部署概要 / 226

第15章 Tableau的新功能与新版本:速度与激情 / 228

15.1 Hyper介绍 / 228


15.2 Maestro数据处理 / 229
15.3 Tableau的最新版本介绍 / 233
Tableau
商业分析 从新手到高手

XXII
第一部分

产品主题分析

本部分主要从产品的维度进行数据分析,通过两个案例数据、4个分析专题,展示了产
品角度的常见商业分析。

4个分析专题为:
yy 快速了解产品线;
yy 评估产品线优劣;
yy 结合时间进行销售分析;
yy 产品价值的综合评价。
软件技术上,主要展示各种数据连接和可视化分析的基本技术。

本部分数据集说明
第一部分使用两个数据集:服装销售数据,母婴产品销售数据。

第一个数据集的原型是一个服装企业产品和销售数据库,数据进行了抽样、脱敏和重
构。数据包含三张表,详细信息见下图和下表。

更多免费电子书搜索「雅书」 https://yabook.org
字段说明:
数 据 表 字 段 说 明
周ID 自然周的ID,用来和其他表链接,提供自然日期
年内周 数值方式记录的自然周
自然年 周ID对应年份
时间码表 年_周 不同年份与其对应的自然周
季度 周ID对应的季度
月名称 周ID对应的自然月
月数字 数值方式记录的自然月
Id 记录自动编码,无现实意义
产品编码 产品唯一编码,用来进行产品标示和表间链接
颜色编码 产品不同颜色属性的编码
销售表 周ID 销售统计的自然周的ID,和时间码表连接,可以匹配到自然日期
分店编码 不同分店的编码
销售额 按周汇总的产品销售额
销售数量 按周汇总的产品销售数量
产品编码 产品唯一编码,用来进行产品标示和表间连接
产品描述 产品中文名称
一级品类 产品一级分类
产品信息表
二级品类 产品二级分类
一级类编码 一级类编码,用于数据库中关联表连接
价格 产品单价

第二个数据集的原型是一个母婴电商销售数据,其中分析使用了两张表:销售流水数据
“20141_3M”和“产品获利评估”。销售流水数据粒度到每流水中每产品的销售情况,汇
总计算的数据表“产品获利评估”是根据销售流水数据按照Sku做了汇总的数据。

数据表 字 段 说 明
Trans_id 交易流水编码
Sku 产品唯一编码
Tableau

Sale_qty 销售数量
20141_3M
Sale_amount 销售金额
商业分析 从新手到高手

profit 净利润
Sale_date 销售日期
Sku 产品唯一编码
Class_code 产品所属类别
产品获利评估 产品利润 按Sku做了汇总的销售利润
关联流水利润 按流水汇总的销售利润
总销售金额 按产品汇总的销售金额

2
第1章
见微知著:快速了解产品线状况

鹏辉:萧岚老师,我一来公司就进入销售部负责数据分析,经过一个月的入职培训和
下店实习,终于要干正事了。昨天经理丢过来一份数据,说让我自己做一个简单分析,快速
了解一下各品类的销售情况,然后和他交流,如有我自己的发现和建议更好。您能不能帮帮
忙,指点一下思路,这个“简单分析”得做成什么样老板才能喜欢?

萧岚:你的电脑安装Tableau了吗?在Tableau打开后的第一个界面上,有三个自带的示
例工作簿,名字分别是“示例超市”“中国分析”和“世界指标”。假如你能看懂第一个
案例——“示例超市”,就一定能理解你老板对你这个职场新人的期望和要求。这个案例展
现了如何分析超市里大/中/小各品类的销售情况,很适合帮助新手了解商业化应用的基本场
景。你要不要自己先看案例,然后尝试一下自己分析?案例所用的Excel数据源也随同软件安
装包装好了,就在打开后第一个界面的左下角“已保存数据源”里。

鹏辉:之前大概看过,没仔细看过。我好好去看一下,然后先试一下,但毕竟行业不
同,我做出来后再请您批判和指导吧。我请您喝咖啡!先行谢过!

萧岚:OK,咖啡不是必须的,能帮你赢得老板的认可,我也很期待!

更多免费电子书搜索「雅书」 https://yabook.org
打开Tableau后的第一个界面如图1-1所示。

图1-1 打开Tableau后的第一个界面

1.1 分析思路:两个女装品牌的产品线分析(1.0版)
在中国市场上,BestCloth有两个主打女装品牌——Paul&Jane和Elianna。其中,
Paul&Jane上市10年以上,而Elianna进入的时间较晚,大约是5年。这两个女装品牌的下属
品类非常相似,但又存在一定差异。

鹏辉首先对Paul&Jane品牌的产品线状况做了数据探查。用Tableau绘制了Paul&Jane品
牌下属一级品类的数量(见图1-2),数据图形上可以看到目前的现状:

(1)Paul&Jane品牌的一级品类共有12个,每个品类下属的产品品种数量各不相同。
其中,“日用品”品类下的品种最多,有91个。“日用品”类中基本都是服装周边商品,如
一些小项链、配饰等,基本不含服装。总体看来,Paul&Jane品牌的产品线有些单一,每个
品类下属的商品品种也不够丰富。以“夹克”品种为例,在当前买方市场的情况下,10种左
右的夹克品种,在对衣服样式相对挑剔的女性消费者看来,等于没有选择。
Tableau
商业分析 从新手到高手

图1-2 Paul&Jane品牌的一级品类数量

4
(2)继续观察二级品类的数据(见图1-3),看看二级品类的品种数量(图1-3中左面
的条形图)和产品价格带分布(图1-3中右面的盒须图)。鹏辉发现数据中存在两个疑点:
①日用品的二级品类中出现了休闲装;②所有二级品类中最高价格的产品居然在“帽子,手
套,围巾”类里。需要对数据进行溯源,以确定数据是否错误。

图1-3 产品分类和价格带

第 第
现在继续对产品销售利润的综合情况进行数据探索。 第

见微知著:快速了解产品线状况
通过观察产品价格带分布的均值(盒须图中的竖线),鹏辉看到Paul&Jane的平均价格
在180元左右,在女装品牌中属于中低端定价。除了“日用品”包含大量的珠宝配饰二级品
类之外,只有“衬衫/背心”和“汗衫/T恤衫”1品类中的产品品种数较多,其他品种中的品
种数比较少。对于中低端价格的大众商品市场定位而言,产品的丰富度稍差。

产品线过于单一,可能会造成营收过于集中在某类单独品种,这样则品牌营收风险较大。

继续观察产品销售数据和利润数据的混合仪表盘(见图1-4)。通过观察产品的利润情

1 读者对这种“随意分类”可能心存疑问,但真实数据就是如此分类,可能有真实原因,也可能是历史遗留
的分类表没有人维护更新。我们保持原状,让读者了解真实商业的数据的各种“特点”。

更多免费电子书搜索「雅书」 https://yabook.org
况,鹏辉验证了自己的推论。无论销售额还是利润额,Paul&Jane的T恤衫都领先于该品牌之
下的其他产品。如此一来,尽管盈利模式的特征鲜明,但是利润来源过于单一,抗市场风险
能力较弱。
Tableau

图1-4 产品利润水平及利润率
商业分析 从新手到高手

通过产品的利润率指标可以看到,T恤衫的利润率与其他产品的利润率相比,并没有绝
对的领先优势。换言之,T恤衫产品的销售额很高,但利润空间并不大,“价格护城河”1的
深度有限。综合这些信息,可以看到Paul&Jane品牌的销售额对T恤衫的依赖过大,而T恤衫
的商业想象空间和价格调整空间有限。

看到这里,鹏辉觉得可能应该抽时间与老同事们聊聊,进一步了解该品牌现状的形成历
史和新品路线,来丰富自己的分析信息。
1 指抵抗价格竞争的能力。

6
鹏辉在QQ上向萧岚简单描述了自己的分析过程与基本结论。

1.2 技术实现:应用Tableau实现1.1节的分析
(1)连接Access数据库,获得需要分析的服装产品数据。单击连接Microsoft Access
➤ 单击浏览按钮,定位到对应的文件存储路径,选择需要分析的Access数据库文件“服装
销售数据.mdb”(见图1-5左部分)。连接后可以在Access中看到分析所需的3张表:产品
信息表、销售表和时间码表(见图1-5右部分)。

第 第

见微知著:快速了解产品线状况

图1-5 连接Access数据库,获得数据

更多免费电子书搜索「雅书」 https://yabook.org
(2)查看数据概况。单击“产品信息表”右侧的表格小图标,在弹出的“查看数据”
窗口中进行数据预览(见图1-6)。观察“产品信息表”中的数据,看到表中存有『一级
品类』、『一级类编码』、『二级品类』、『产品描述』、『产品编码』和『价格』6个字
段。使用同样的方式,可以观察其他几张表内的数据状况。

图1-6 预览数据

(3)配置数据源。拖动“产品信息表”到数据表视图画布区域,在界面下方的数据预
览区中可以预览数据。目前的分析暂时用不到『一级类编码』字段,在其中单击鼠标右键,
在弹出的菜单中选择隐藏命令隐藏此列(见图1-7)。表中的『产品编码』字段将作为关键
字用于连接其他表,予以保留。

图1-7 选择“产品信息表”并隐藏其中的一列
Tableau

(4)建立二级品类图形。单击工作表面板区域的新建工作表选项卡,添加一个工作
商业分析 从新手到高手

表,进入新建的工作表视图➤拖动『二级品类』字段到行功能区(见图1-8)➤拖动数据面
板『总计(记录数)』字段到列功能区(见图1-9)。在右上角的智能显示选项卡中自动推
荐了几种适合数据集的统计图形,此处使用默认的水平条。

(5)编辑图形。生成的图形默认按字段名称的字母顺序排序,单击工具栏中的降序
图标 ,根据数值顺序决定界面排序。单击“标记”面板中的标签项,勾选“显示标记标
签”复选框,可以在图形上为数据增加“数值”标签,见图1-10。

8
图1-8 拖动『二级品类』字段到行功能区

图1-9 拖动数据面板的『总计(记录数)』字段到列功能区

第 第

见微知著:快速了解产品线状况

图1-10 勾选“显示标记标签”复选框

更多免费电子书搜索「雅书」 https://yabook.org
(6)制作分级条形图。拖动『一级品类』字段到行功能区域的『二级品类』字段前
面,增加图形分层结构,如图1-11所示。拖动『一级品类』字段到标记面板颜色标记,利
用颜色区分二级品类中的各项产品,在弹出的菜单中选择排除命令过滤“赠品”记录,然后
将此工作表命名为“产品分类”。

图1-11 拖动【一级品类】字段

(7)绘制价格分析的盒须图。新建工作表➤拖动『二级品类』字段到工作表的行功能
区,双击侧边“数据”面板内的『价格』字段,在右侧可视化工作区中自动生成了各品类的
销售价格表,如图1-12上部分所示。数据中有“赠品”,在其上单击鼠标右键,在弹出的
菜单中选择排除命令过滤“赠品”记录,如图1-12下部分所示。
Tableau
商业分析 从新手到高手

10
图1-12 选择排除选项

(8)计算平均价格。『价格计算』字段默认运算为总计(SUM),但所有商品的汇总

第 第
价格对观察品类价格分布没有意义,所以双击总计字段,修改计算公式为“AVG([价格])”,
获得二级品类的平均价格,如图1-13所示。

见微知著:快速了解产品线状况
(9)绘制平均价格分布图。单击右上角智能显示菜单➤单击盒须图图标,获得所有分
类平均价格的分布情况图形。拖动『二级品类』字段到列功能区,获得各二级品类产品价格
带图形,如图1-14所示。

11

更多免费电子书搜索「雅书」 https://yabook.org
图1-13 获得二级品类的平均价格
Tableau
商业分析 从新手到高手

图1-14 获得各二级品类产品价格带的图形

12
(10)绘制价格分布盒须图。此时获得的图形自动为每类产品计算了一个平均值,所
以价格显示成了一条线。为了获得每种产品价格分布的箱型图,单击分析菜单 ➤ 取消聚
合度量选项,获得每种产品类别的价格分布盒须图,然后将此工作表命名为“产品价格带分
布”。单击工具栏“交换行和列”图标 ,获得纵向盒须图,如图1-15所示。

图1-15 获得纵向盒须图

(11)拼接产品综合信息仪表板。在工具栏单击“新建仪表板”图标 ,新建仪表
板,将其命名为“产品分类和价格带”,分别拖动之前建立的“产品分类”工作表和“产品

第 第
价格带分布”工作表到刚建立的仪表板,建立一个综合观察仪表板,如图1-16所示。 第

见微知著:快速了解产品线状况
(12)调整图格式和数据顺序。新生成图形的分类轴顺序不一致,需调整顺序以方便
对比。单击转到工作表项,转到工作表视图,在行功能区单击一级品类右侧的下拉箭头,在
下拉菜单中选择排序命令,在弹出的面板中选择降序选项,“字段”设为“记录数”,“聚
合”设为“计数”,如图1-17所示。

13

更多免费电子书搜索「雅书」 https://yabook.org
图1-16 建立一个综合观察仪表板
Tableau

图1-17 调整图的格式和数据顺序
商业分析 从新手到高手

(13)用同样方式配置价格带盒须图的分类轴顺序,在产品分类坐标区域单击鼠标右
键,在弹出的菜单中取消勾选二级品类的显示标题命令(如图1-18所示),用同样方法去
掉一级品类的标题。回到仪表板界面,获得最终的对比仪表板。

14
图1-18 取消勾选二级品类的“显示标题”命令

(14)创建产品利润水平及利润率图形。跳转到数据源视图,将“销售表”拖动到画
布中,“产品信息表”和“销售表”自动创建关联,确认关联字段为『产品编码』,如图
1-19所示。

第 第

见微知著:快速了解产品线状况
图1-19 确认关联字段为『产品编码』

(15)新建工作表。将『二级品类』字段拖入行功能区域 ➤ 在“数据”面板中双击
『度量值』,自动生成所有指标数据表,度量值面板保留“总计(利润)”和“总计(价格
)”。拖动保留的字段到列功能区。在“数据”面板中创建计算字段『利润率』,公式为“利
润/销售额”,如图1-20所示。

15

更多免费电子书搜索「雅书」 https://yabook.org
图1-20 创建计算字段的利润率

(16)将『利润率』字段拖动到列功能区域,修改公式为“AVG(利润率)”。在工具
栏中单击降序按钮重新排列图标,将维度中的『度量名称』拖入“标记”面板和颜色卡中
的颜色项,单击平均值(利润率)下拉箭头,设置格式为百分比(如图1-21所示),获得
“产品利润水平及利润率”图形。
Tableau
商业分析 从新手到高手

图1-21 设置格式

16
1.3 拓展技术专题1:盒须图
盒须图又名箱形图,虽然多数人对它不太熟悉,但对于专业数据分析人员来说,它是不
可或缺的数据探查工具。

盒须图通过5个数值展示数据的分布范围:最小值、1/4分位数、中位数、3/4分位数和
最大值,如图1-22所示。图中IQR为四分位距,如一个超过两端的距离大于“1.5×IQR”,
则该值异常。

第 第

图1-22 盒须图

见微知著:快速了解产品线状况

1.4 拓展技术专题2:Tableau连接其他数据库
前面案例中连接了微软的小型文件数据库Access。除此之外,Tableau还可以连接多种主
流的数据格式。下面以MySQL为例进行连接。

在Tableau中依次单击数据 ➤ 新建数据源 ➤ 更多 ➤ MySQL,弹出“连接”对话框

17

更多免费电子书搜索「雅书」 https://yabook.org
➤ 输入数据库服务器地址和端口号,输入用户名和密码,单击“登录”按钮即可连接数据
库,如图1-23所示。

图1-23 Tableau连接MySQL
Tableau
商业分析 从新手到高手

18
第2章
对比出真知:如何评估产品线的优劣

鹏辉从数据上获得了一些信息,尤其是觉得产品线过于单调、品类过少。虽然鹏辉觉得
是一个“显而易见”的结论,但萧岚的质疑让他进行了更深入的思考:对一些人来说可能结
论不算明显,如果有人一定要质疑这个结论呢,或者有人觉得十几种产品就很丰富了呢。

鹏辉回想了一下萧岚给他的提示:“你们公司不是有好几个牌子吗?”对啊,没有对
比就没有效果!其他品牌的数据放一起一看,不就“丰俭立现”了吗。如果公司的品牌还不
行,我就再找行业内的标杆来比较,反正是一定要证明老品牌的品类太匮乏了。在做这个分
析之间,鹏辉做了两次换位思考。换位到消费者角度,谁都不希望买不到东西;可换位到品
牌商角度来看,品类过多或同一品类下的二类选择过多,库存积压在占用流动资金和仓储资
源的同时,还将通过库存清仓对品牌的定价策略带来一定冲击。由此想来,零售行业的品类
分析真是非常重要的商业分析主题。

鹏辉立刻找IT部门申请查看了公司另外一个女装品牌——Elianna的同类数据。

2.1 分析思路:两个女装品牌的产品线分析(2.0版)
鹏辉使用补充的数据制作了一张两个品牌产品线品种对比图(见图2-1),左侧(蓝
色)为Paul&Jane产品线种类,右面(橙色)为Elianna的产品线种类情况。

尽管同属一家企业,但两个品牌的一级品类名称并不完全相同。从产品特征上看,
Elianna品牌的“周边”品类与Paul&Jane的“日用品”品类相似,都是服装周边搭配的小产
品。我们主要观察配饰之外的服装种类。

更多免费电子书搜索「雅书」 https://yabook.org
一眼望去,橙色的水平条显著多于蓝色。给人的第一印象,Elianna的品类更加丰富。

相比之下,Paul&Jane作为上市近20年的老品牌,T恤衫和衬衫产品支撑着品种数量,
其他产品的品种似乎少得有点跟不上时代。看到两个品牌的一级品类数据对比,基本可以推
断:Elianna品牌的品类更加丰富,消费者购买选择更多。

(a)Paul&Jane的产品 (b)Elianna的产品

图2-1 两品牌产品线品种数量对比

当然,品种数量的差异,也有可能是品类树的归纳方式不同所造成的,但服装是名称归
纳比较通用的产品,两个品牌又是同一集团旗下的女装,品类树归纳方法不同而造成目前数
据现状的可能性非常低。
Tableau

为了更深入了解两个品牌的综合情况,将销售数量纳入分析中来。将Elianna品牌的“周
商业分析 从新手到高手

边”类重命名为“日用品”(见图2-2)。

通过直接对比两个品牌一级品类的销售数量,会发现Elianna品牌各类的销售数量相对
Paul&Jane品牌而言更加均衡,各类之间的销售数量差异没有Paul&Jane各品类销量的差异
那么大。

20
(a)Paul&Jane产品 (b)Elianna产品

图2-2 两个品牌品类数和销售量对比

综合以上几张图表的信息,排除掉“日用品”这种服装周边配饰类小商品,观察主要服
装产品情况。Paul&Jane产品线中数量最多的就是“T恤衫/汗衫”和“衬衫/背心”类,其他

第 第
的服装品类数量都比较少,而Elianna品牌在各种服装品类上的品种要更丰富。这里的分析可
以辅助验证在1.1节的产品线分析(1.0版)中获得的两个印象,即Paul&Jane的品种不够丰

对比出真知:如何评估产品线的优劣
富,且营收上过于依赖“汗衫/T恤衫”这个单一品种。

看到自己针对两个子品牌所完成的两个分析结果后,鹏辉觉得有点把握了。他先将自己
的操作过程录了一个视频,以免忘了自己的操作过程,然后约了老板准备做一个简单汇报。

2.2 技术实现:用Tableau实现2.1节的分析
(1)连接数据。单击“新建数据源”按钮,在弹出的菜单中选择excel选项,在弹出的
对话框中定位到数据文件路径,选择Excel文件“对照数据.xlsx”,单击“确定”按钮后完

21

更多免费电子书搜索「雅书」 https://yabook.org
成数据连接,如图2-3所示。

图2-3 连接数据

观察数据。选择Excel文件中需要的sheet表“对照品牌(女装)”,将其拖动到数据
视图的画布区(如图2-4所示)。在下面数据预览区域中可以观察到提前整理好的两列数据
——字段『品类名称』和『销售数量』,分别是对应品牌的种类和同期销售数量。

图2-4 观察数据

(2)制作对比品牌条形图。拖动『品类名称』字段到行功能面板(如图2-5所示),
Tableau

双击“数据”面板度量区域『总计(记录数)』字段,视图区域获得品类数目表格。单件右
上角智能显示按钮 ➤ 在弹出的下拉列表中选择条形图选项,获得品类数量条形图(如图
商业分析 从新手到高手

2-6所示),修改工作表名称为“大类品类图”。

(3)在底部“图表”面板区域单击“仪表板”按钮创建一个新仪表板,将其重命名为
“产品线对比”。拖动原来品牌的“大类品类图”到刚刚建立的“产品线对比”仪表板(如
图2-7所示),再拖动新建立的对比品牌工作表到仪表板,以便对比观察(见图2-8)。

22
图2-5 拖动『品类名称』字段到行功能面板 图2-6 品类数量条形图

第 第

对比出真知:如何评估产品线的优劣

图2-7 拖动 “大类品类图”到 “产品线对比”仪表板

23

更多免费电子书搜索「雅书」 https://yabook.org
图2-8 并列对比观察

(4)重新分组。由于两个品牌的产品分类结构不完全相同,通过字段分组功能重新归
纳成为类似的品类,以便对比观察。进入到需要重新分组的工作表视图,在“数据”面板区
域以鼠标右键单击『品类名称』字段,在弹出的菜单中选择组命令。在弹出界面中按住Ctrl
键选择“皮衣”“皮裤”“pu皮裤”“pu皮衣”4个类别,单击组按钮,重命名新组为“皮
衣”,单击应用按钮增加一个分组,如图2-9所示。使用同样方法设置好其他组,单击确定
按钮,生成新的“品类名称(组)”字段。

(5)拖动新的『品类名称(组)』字段到『品类名称』字段上进行字段替换(如
Tableau

图2-10所示),生成新的图表(如图2-11所示)。在工作表区域单击仪表板,回到仪表板
商业分析 从新手到高手

视图,会看到图形已经更新。左右两个品牌分类相近的类别坐标轴上的位置差别较大,通过
单击相应的类别并手工拖动调节内容项位置,可以方便地比较左右数据。

24
图2-9 增加一个分组

第 第

对比出真知:如何评估产品线的优劣
图2-10 拖动新的『品类名称(组)』字段到『品类名称』字段上

25

更多免费电子书搜索「雅书」 https://yabook.org
图2-11 生成新的图表

(6)调整好类别后,进入对比品牌的工作表,拖动『总计(销售数量)』字段到列功
能区(如图2-12所示),在图中添加销售数量数据(如图2-13所示)。用同样方法添加其
他原始产品的销量数据到表中。
Tableau
商业分析 从新手到高手

图2-12 拖动『总计(销售数量)』字段到列功能区

26
图2-13 添加了销售数量

(7)在对比品牌数据表中单击“标记”面板中的颜色项,在弹出的“色板”对话框中
更改图形颜色为橙色,获得最终对比图形,如图2-14所示。

第 第

对比出真知:如何评估产品线的优劣

图2-14 最终对比图形

27

更多免费电子书搜索「雅书」 https://yabook.org
2.3 拓展技术专题3:数据清理
现实工作中,开始分析数据时,数据往往不像教科书或软件自带的数据示例那么好的质
量。即使是电商行业程序化系统自动留存的数据,大多数时候其中也会发现各种各样需要处
理的问题。

常见的数据质量问题包括但不限于:数据中的异常值、关键数据缺失、混合多数据源时
无法找到有效连接的关键字段等。在所有需要使用数据的场景中,无论数据可视化分析、商
业智能报表开发,还是更复杂的大数据建模,数据质量问题都是整个流程中必须面对的,并
且是最花费时间的工作。

Tableau提供了一些功能支持数据检查和数据预处理,包括在可视化工作区中直接隐藏
不需要的数据,以及在多表连接过程中,连接字段可以使用公式在数据源连接界面中直接对
数据进行重构。

下面列举一些常见数据处理功能的应用。

1.字符错误的整理
分类数据经常会出现大小写不一致(如tableau - Tableau),错别字(如tableau -
Tableu),记录中前后存储了看不到的空格等问题(如tableau - tableau)。这些错误在人
工观察时都不会造成太大困扰,我们的大脑会自动归纳和修正。但对电脑来说,这些都是不
同的记录,这和我们希望的处理方式不一致。针对此类问题,可以用Tableau公式中提供的
分组功能手动处理或者使用函数功能自动处理。

当有少量的记录不一致时,可以在Tableau中的“数据”面板有问题的字段上单击鼠标
右键,在弹出的菜单中选择创建组命令,手工将书写错误的相同数据记录归为一组,然后
重命名为一个正确的组名。例如:“Tableau”“Tableau工具”“Tableau软件”这三种记
录,可以重新归类为“Tableau软件”。

如果需要手工处理的比较多,可以创建计算字段,使用软件提供的函数来自动完成。例
Tableau

如,字段中存储了很多名称,但大小写不统一,并且可能字段的首尾有不需要的空格,此类
问题,可以通过创建计算字段,输入公式“LOWER(TRIM(字段))”自动统一不规范的字段,
商业分析 从新手到高手

生成新的字段,免去大量的手工整理工作。

2.数据异常值的识别处理
通过散点图或者直方图可以很容易地识别数据中的“异常值”。如果数据展现的特征异
于群体,或者某条记录的值比多数值都大很多、这样的记录是不是真正的异常,需要根据业
务经验进行逻辑判断,然后再选择合适的处理方法。

28
一旦确定为异常值,Tableau中可以设置筛选条件过滤异常值。值的筛选有多种方式:

(1)使用图表筛选器面板。将需要设置为筛选条件的字段拖动到筛选器面板(如图
2-15所示),然后设置筛选条件,这样可以在数据表级别过滤掉一些不需要的异常记录。

图2-15 图表筛选器面板

(2)在数据连接源过滤数据。这样,所有使用同一数据源的数据表都会被过滤。例
如:在客户主题的优惠券分析中(在第8章会介绍),如果用券比率大于1,则为异常值,
应该过滤掉这类数据。可以在数据源视图中单击筛选器的编辑项目,对数据源总体添加一个
『用券比率』字段,并设置筛选条件“至多为1”,如图2-16所示。

第 第

对比出真知:如何评估产品线的优劣

图2-16 添加筛选条件

29

更多免费电子书搜索「雅书」 https://yabook.org
(3)数据重构。数据重构就是实行行/列数据格式的转化。Tableau在数据源提供了一
个数据重构的功能。下面做一个简单演示说明。

原始表结构(如图2-17所示):品类+各月销售额的交叉表格

连接上面表数据到Tableau,在数据预览区按住Shift键选择『1月』『2月』『3月』三
列字段,单击鼠标右键,在弹出的菜单中选择“数据透视表”命令(如图2-18所示),则
Tableau自动完成格式转化。

图2-17 原始表结构 图2-18 选择“数据透视表”命令

预览数据可以看到获得新的数据结构,如图2-19所示。
Tableau
商业分析 从新手到高手

图2-19 新的数据结构

30
第3章
穿越时空:结合时间发现销售
模式的特征

鹏辉:萧岚老师,我前面的分析得到领导肯定了。他说虽然过程简单,但思路还有点
意思,说明动了脑子,让我再接再厉。他还给协调了权限,让我可以拿到更多数据来试验。
并且,分析了两轮数据后,我好像也有感觉了,竟然有点喜欢上了数据分析这个工作了,嘿
嘿。我想继续挖挖经理给我的数据,不过软件用得还是一般,最主要我数据处理的手艺不
成,所以找了个外援——我的同学——备用,他目前在一家大型商业连锁公司的IT部门做数
据支持,他IT能力强,懂SQL1,他们之前也买过Tableau软件。

术术:萧岚老师好!

萧岚:别客气,叫我萧岚就行,不过虚长了几岁,他们是培训时候叫习惯了。

鹏辉:萧岚老师,我自己想分析看看销售额的时间分布情况,我新拿到的销售数据里有
3年的各门店销售数据,我取了最近一年的数据做分析。可术术非说分析3年全部数据才好,
我觉得关心近期销售状态就可以了,而且也覆盖了12个月,太老的数据时过境迁了,没什么
参考价值。

术术:多数人的关注点都集中在于当下,但分析师应该建立穿越时空的视角。不知道过
去的人,也不会知道现在在哪里。没有继往,何以开来!

鹏辉:呦呦,还拽上了,咱财务管理系毕业的,以前只要会变着花样算计钱就行了,您
现在不同了,干上了信息化,还写上代码,这就文绉绉的,冒充文化人了哈……写代码是写
小说吗?您还穿越时空呢!

1 数据库标准化查询语言,关系型数据库的通用语言。

更多免费电子书搜索「雅书」 https://yabook.org
术术:那怎么了,谁说做分析、写代码的就没文化了,完全是刻板印象。我们这行综合
人才多着呢,而且,看看老外的顶级大牛,好多都是多元化技能的,不像我们这么文科和理
科分得泾渭分明。

鹏辉:嗯,不怕IT会代码,就怕IT有文化。

萧岚:好了好了,别斗嘴了,来看看你们俩双剑合璧做了什么有趣的分析。

3.1 一年销售期产品混合线图分析(不合理的方法)
根据历史销售数据,鹏辉绘制的2016年一级品类的月销量数据(见图3-1)。

预料之中,“汗衫/T恤”产品的销售量最高。从销售数据的时间表现上可以看到,该品
类的销售旺季是3、4、5和9月,最大的可能因素是气候原因。日用品(服装周边饰品)、女
装、羊毛衫的销售旺季有一定相似性,数据上看7、9月为销售旺季,羊毛衫的高峰会延续一
个月,常识上来判断,主要原因也应该是受季节因素的影响。
Tableau
商业分析 从新手到高手

图3-1 2016年一级品类月销售数据

32
上面看到的是一级品类的销售情况。为了获取更细节的信息,再来绘制二级品类的销售
情况,如图3-2所示。

图3-2 二级品类销售线图

由于销售数量差距很大,且二级品类又比较多,图形中很多线都混杂在一起,不容易观

第 第
察变化情况,所以分别绘制各二级分类按月销售图形,见图3-3。 第

图3-3中,每个类一个独自的图形,可以独自观察每个二级品类各月的销售情况。该数

穿越时空:结合时间发现销售模式的特征
据显示,每种产品都比较符合自己的季节销售特征,并没有显示出什么特殊情况,说明顾客
的购买习惯比较符合常识。

33

更多免费电子书搜索「雅书」 https://yabook.org
图3-3 二级品类各月销售量分项图

鹏辉在QQ上向萧岚简单描述了自己的分析过程与基本结论。
Tableau
商业分析 从新手到高手

34
3.2 长周期分组分析(萧岚的分析)
由于数据中一级品类的项比较少,总体特征过于概括,就算观察无非就是获得大品类总
体的不同时间销售额情况。我们直接从二级分类的销售情况开始研究,观察二级品类连续三
年的销售情况(见图3-4)。

第 第
图3-4 二级品类连续三年的销量情况

穿越时空:结合时间发现销售模式的特征
从图3-4我们可以看到,有的一年之内展示的销售特征,而从三年时间轴看并非如此。
一些表现细节之后再陈述,首先我们来处置销售数据的不同量级问题。

因为不同品类的销售总数量规模差异很大,所以在图中,由于纵坐标轴的“扩张”,销
售规模相对小的品类在时间上的特征都被“压平”了。这不奇怪,如果纵轴最大值放大到几
个亿,所有类别的图形都会被压缩成一条直线,无法观察到任何模式。

所以,如果想要观察销量在时间上的变化模式,首先根据销售量级将二级品类先划分为
不同的组。(另外一种展示方案:按照各品类总销售量将销售数据标准化后绘图)。

这里,我按照不同的销售规模将品类手工归并为三组(销量第一等级至销量第三等
级),分组绘制图形(见图3-5),这样产品可以对不同时间的销售变化特征展现得更清晰
一些。

35

更多免费电子书搜索「雅书」 https://yabook.org
图3-5 分为三组后的销售特征图

现在可以发现一些销售中的情况。

“T恤衫”(第一行蓝色线)类产品并非一直有很高销量,而是从2015年末开始销售增
长了一个量级。服装周边的“珠宝饰品”类产品在2015年3月激增,随后又急剧减少。“晚
装”(第一行的橙色线)类产品,之前两年每年12月份会有小高峰,可能是该类服装的特
定需求场景造成的,一个合理的推断应该是公司年会,但2016年销售高峰却变到了9月,是
多数企业的年会日期发生了变化,还是其他原因造成的?这会成为一种持续的时间销售模式
吗?这里提出了一个需要明确调查的后续问题,答案关乎相应时间的产品营销策略是否需要
改变。

综上,观察数据图表找到了很好的线索,提醒企业应该继续追踪的三个主要问题:
Tableau

yy T恤衫、服装周边的珠宝配饰销量的趋势变动很大(一个激增,一个剧减),到底是
市场原因(消费者购买行为的变化)造成的,还是企业自己的原因造成的?例如,新
商业分析 从新手到高手

品的设计和推出、营销和促销策略的转变等因素。如果是市场环境变了,则需要企业
作出产品的调整;如果是营销的变化造成的,则应该相应地调整营销行为。
yy 晚装这类特殊场景产品,近期的销售高峰改变,到底是什么原因造成的?迎合销售时
点的促销行为和产品位置展示对这种时机销售的产品很重要,我们是否要根据发现改
变现有的经验性促销行为。
yy 二级品类下的种类比较多,靠人工逐个观察总结出重要的信息,则效率很低。能不能
从业务逻辑上归纳出一些规则作为基准,违反基准的品类自动提取预警,然后再人工

36
重点追踪研究。

鹏辉: 萧岚老师,你的分析虽然更清晰和深入一些,但并没有给出实
质性的结论,倒是提出了一堆问题。

术术:不过我倒是好像获得了一些启发,原来我还真没有想到能延伸出
这么多的问题,真是什么都得深入想想。

萧岚:我是没有给出实质性的结论。有些时候,基于某种逻辑或者数据
限制,未必能获得绝对的结论,但提出好的问题往往是重要的开始,会找到
应该深入探究的方向,或者需要去追踪研究的现象。

人的精力有限,但细节问题数不胜数,所以传统的数据探查多数以概括
性总体分析为主,但总体数据又会掩盖和屏蔽掉很多细节。针对总体数据表
现的情况提出正确的问题,才能指导我们沿着正确的方向追查细节,获得真
正需要了解的知识,或者发现解决问题的方法。

比如上面我提到的三个问题的第一个,我们可能需要继续探查细节数
据,追问以下问题销售趋势的变化到底是所有的店铺都存在的普遍模式,还
是只是部分店铺的销售变化模式造成总体数据变化?是品类下新设计推出的
产品表现出的销量变化,还是相同品种总体的销售变化?是同样的商业环境
下的销量变化,还是不同的促销力度、不同的价格情况下的销量变化?回答
了这些延伸问题,可能商业上应该做的动作就很清晰了,这时,你们需要的
结论性的答案就会有了。

对细节数据的分析可以揭示更多有价值的信息。你们公司的产品数量相
对较少,产品分析可能还不是非常重要,但对大零售企业,更细级别的分析

第 第
就会比较重要,我这有一个咨询过的案例,可以给你们介绍一下,你们会理 第
解得更深刻。

穿越时空:结合时间发现销售模式的特征
术术:下次吧,老师,信息量太大,接受不了。我们自己先钻研一下现
在的数据,并熟悉一下你刚刚的操作和分析流程。

萧岚:呵呵,好吧,信息量可能有点大,下次有机会给你们演示。

3.3 技术实现:用Tableau实现3.2节的分析
(1)连接多张表构建数据源。新建一个连接 ➤ 拖动“产品信息表”“销售表”和“时
间码表”三张表到数据源视图右上部连接设置区 ➤ 设置表间连接字段。“销售表”中存储

37

更多免费电子书搜索「雅书」 https://yabook.org
的销售时间是编码形式,所以需要连接“时间码表”获得具体销售日期,表连接字段设置如
图3-6所示。

图3-6 表连接字段设置

(2)建立品类销售混合线图。新建一个工作表,将其命名为“销售时间交叉分析”,
在其左侧数据面板中可以看到连接后的各个表字段。拖动字段『自然年』和『月数字』到列
功能面板 ➤ 『销售数量』字段到行区域 ➤ 『二级品类』到标记面板颜色标记上(如图3-7
所示),获得多品类混合月销售序列图,如图3-8所示。

(3)按销售量级分组图形。按住Ctrl键,单击图上的多条线。在弹出的菜单中选择“分
组”命令➤在下拉菜单中选择二级品类。系统自动生成『二级品类(组)』字段,并且自动
替换成颜色标记字段,如图3-9所示。
Tableau
商业分析 从新手到高手

图3-7 拖动字段到面板

38
图3-8 多品类混合月销售序列图

第 第

穿越时空:结合时间发现销售模式的特征

图3-9 自动生成『二级品类(组)』字段

39

更多免费电子书搜索「雅书」 https://yabook.org
(4)生成分组图形。拖动新字段『二级品类(组)』到纵坐标轴区域,在标记面板上
将二级品类的标记改回颜色,如图3-10所示。

图3-10 拖动『二级品类(组)』到纵坐标轴区域

(5)编辑颜色标志显示顺序。在标记面板单击二级品类,在其右侧下拉箭头中选择
排序命令➤在“排序顺序”框中选择降序,排序依据单选框选择字段,字段选择“销售数
量”,聚合项目选择“总计”(如图3-11所示)。单击确定按钮后图形中的“二级品类”
颜色标记按照销售数量降序排列。
Tableau
商业分析 从新手到高手

图3-11 按销售数量降序排列

(6)编辑分组。在左侧数据面板中右击新生成的字段『二级品类(组)』➤在弹出的

40
菜单中选择编辑命令➤在弹出的菜单中修改名称为“品类销量等级”,修改新生成的组为销
量第一等级。编辑项“长袖衬衫/短袖衬衫/翻领毛衣/开襟羊毛衫/皮带,箱包,钱包/双袋衬
衫”为一组,命名为“销量第二等级”,如图3-12所示。其他的划分为“销量第三等级”
组。

图3-12 编辑销量第二等级

(7)调整数据图形。分组编辑完成后,会看到图形已经自动更新。拖动不同等级组到
需要的顺序➤在纵坐标轴上单击鼠标右键,在弹出菜单中选择编辑轴命令➤在弹出的设置面
板中选择每行或每列使用独立的轴范围命令(如图3-13所示)➤单击确定按钮,获得分组
的图形,可以观察不同产品销量时间模式(如图3-14所示)。

第 第

穿越时空:结合时间发现销售模式的特征

图3-13 调整数据图形

41

更多免费电子书搜索「雅书」 https://yabook.org
图3-14 不同产品销量时间模式

3.4 拓展技术专题4:根据数值等级自动分组
前面分析中,对销售数量的分组采取了手工分组定义的方法。很多分析场景下,需要
结合一些行业经验和习惯进行人工划分。但如果数值区间是动态变化的,或者需要根据数值
的动态分段来划分等级,这种人工划分的方式的需要每次重新定义,效率就很低,因为当总
体的数据变化后,之前的人工分组不再适合,又需要重新操作一遍。这种情况,可以利用
Tableau提供的公式和数据分箱功能自动构建分级字段。

在数据源界面事先对数据进行数据提取 ➤ 回到工作表中,在左侧字段面板中单击鼠标
右键 ➤ 创建计算字段,弹出公式编辑界面。因为要按照类别的销售规模分组,所以先建立
一个类别销售汇总字段。字段名称改为“二级类销量”,输入公式“{fixed[二级品类]:SUM(
Tableau

销售数量)}”,单击确定按钮,创建二级类销量字段,如图3-15所示。

在左侧数据面板找到新创建的『二级类销量』字段,在字段上单击鼠标右键 ➤ 创建 ➤
商业分析 从新手到高手

数据桶,在弹出的设置面板划分项目使用默认大小,或者自己按需要在数据桶大小的文本框
内输入一个数值。单击确定按钮生成数据桶字段,如图3-16所示。这个字段可以代替上面
的手工等级划分字段,作为行坐标功能面板分区字段使用。

42
图3-15 创建二级类销量字段

图3-16 创建新的字段作为等级划分字段

第 第

穿越时空:结合时间发现销售模式的特征

43

更多免费电子书搜索「雅书」 https://yabook.org
第4章
是否赔本赚吆喝?产品价值如何
综合评估

术术:萧岚老师,终于抓到你了,上次说给我们分享一个产品价值评估主题来的,我这
个月都来这好几次了,怎么都没见你呢。

萧岚:这段时间在做一个项目,别着急,一会给你们分享。再说,你们也没白来嘛,听
大威说你们最近技术精进不少,大威数据挖掘方面也很“牛”的,你们学了不少东西吧。

Lisa:大威是很厉害,但经常分享其他工具,我们就想把Tableau精通了,还要学别的,
多累呀。

萧岚:那你们完蛋了,我要分享给你们的案例,也需要结合别的软件,那你们还要听
不?

术术:听!上次说完,我都惦记了一个月了。

Lisa:老师,能不用其他软件吗?

萧岚:这个还真不成,因为涉及到很多数据预处理过程,Tableau工具这方面的功能目
前还不是很强。不过学了对你们有好处,Tableau并购了一个专门做数据准备的小软件叫做
“Maestro”,这个词语发音真怪,我还特地查了一下字典,据说是“大师”的意思,还是
音乐方面的大师,挺好玩。最近发布新版本的时候,这个“Maestro”被改名为“Tableau
PreP”了,读是好读了,数据准备的功能还是不能和专门的ETL工具比。不过应付大家常用
的合并数据、编辑数据、重新分组和清理异常值等来说,够用了。

Lisa:是吗?这还可以。
萧岚:呦,还成了我求你们了,是不!那不讲了!

Lisa:别小气嘛,请你喝咖啡。服务员,来一杯红茶拿铁……

萧岚:好吧,看在这么了解我口味的份上,开讲!

我分享的案例是一个综合的电商平台。公司留意到了母婴市场的快速发展,所以开辟了
新的母婴产品线分支切入这块市场。企业原来的市场定位和产品线并不是针对母婴市场的,
所以积累的客户信息和营销经验都不是针对母婴产品的。所以产生两个问题:第一,现有客
群里面符合产品定位的目标群体比率不是很高;第二,目标客群消费者的母婴品购买习惯不
易改变,自身平台不在购买母婴品的备选名单上。你们觉得应该怎么解决呢?

Lisa:到处打广告。

萧岚:你那是传统企业的做法,互联网公司很少干那种漫无目标的广告轰炸行为。互联
网公司注重营销效果,即使广告精准度同样有好有坏,但基本原则是对客户让利,让促销费
用更多地作用于潜在客户,而不是在各种媒体乱撒钱。

术术:哦,那就大幅度让利,赔本赚吆喝。我听过有句老话“任何广告都抵不过降1分
钱的价”。

萧岚:答对了一半。前期赔本是一定的。但是否赚到吆喝,那得具体情况具体分析。这
家企业是采取了大量的降价促销方式,并且这种方式成为了一种习惯,变成了持续的、依赖
性行销手段。

所以,现实情况是:赔本是肯定的,至于赚到吆喝没有成了一笔糊涂账!在这个项目
中,我们尝试着构建一些数据指标来综合、客观地衡量一下不同产品促销的价值,向企业提
供一些可量化和衡量的比较指标,为企业营销决策提供支持。

第 第

4.1 产品促销情况的初步探查

是否赔本赚吆喝?产品价值如何综合评估
我们首先根据产品2015年第一季度的销售额和利润绘制产品利润气泡图(见图4-1),
观察这时期产品销售的综合情况。

每一个气泡代表一种产品,气泡大小对应总销售额,面积越大,则表示销售额越高。颜
色对应销售净利润:越靠近蓝色,代表净利润越大。越偏向红色,代表净利润负值越高,表
示赔钱;越接近灰色,代表净利润越接近零。

净利润为负值和接近零的产品多数都是参与过促销活动的,可以看出,参与促销的产品
很多。从单品角度来衡量,净利润为负值的产品,企业的销售行为是赔钱的,卖得越多,赔
得越多。从气泡的大小来看,销售赔钱的产品,销售规模并不小。虽然此类产品进行促销的

45

更多免费电子书搜索「雅书」 https://yabook.org
初衷在于引流客户,企业希望产品带来客户,然后在客户的其他购物行为上获得利润补偿。
但期望不等于现实。

图4-1 产品利润气泡图
Tableau

我们应该综合、客观地进行衡量和判断。如果某些为营销目的而赔钱售卖的产品,并没
商业分析 从新手到高手

有带来关联销售利润,那么就没有达成初衷,企业就应该改变产品促销策略。

如果一件事情无法衡量,我们就无法管理它。所以,我们首先尝试量化需要衡量的目
标——产品促销的价值。这里,我们采用一个基本的分析逻辑:如果产品自身没有通过促销
获取利润,产品的关联销售行为也没有获得利润,那么产品的折扣性促销就是没有价值的。
进行这种分析需要综合观察产品自身的销售利润和关联购物篮中其他产品的销售利润,前期
的工作需要汇总出产品本身的销售利润以及同时购物流水单中其他产品的销售利润。

完成相关计算需要对原始数据做一些比较复杂的数据预处理,Tableau软件完成这些计

46
算相对困难,我们使用一个开源的软件Kettle。下面先介绍这个软件。

4.2 数据预处理工具:Kettle
数据挖掘领域有一句格言“垃圾入,垃圾出”。想要获得有价值的结果,数据的处理工
作会占据整个工作的大部分时间,根据经验估算,数据处理工作一般占整个数据挖掘工作总
时间的70%左右。

在数据可视化分析中,数据预处理占据的工时比重往往会更多,而不会更少,因为现实
的数据很少完全符合最终可视化展示的要求,经常会出现各种各样的问题。有时候是数据质
量问题,即所谓的“脏数据”,需要检查清理;有时候是数据存储结构不符合可视化图形的
要求,需要做格式转换;还有一些时候,原始数据需要一系列中间环节的加工处理,可视化
工作使用的是最后输出的处理数据。

上面提到的这些工作统称“数据预处理”,有很多方法完成这部分工作,从手工编写
程序代码到各种商业的软件工具的运用。完成数据预处理相关功能的软件称为ETL(Extract
Transform Load,抽取转换、加载)工具。这里介绍其中一款强大的开源工具——Kettle。

1.Kettle简介
Kettle是一款专业的开源的ETL工具,它提供图形化的操作界面,采用简单灵活的“步
骤+操作流”的使用方式。Kettle具有完备的文档、强大的社区支持,新人非常容易学习和上
手。完全掌握后,可以完成企业量级的ETL工作。对于经常和数据打交道的用户来说,软件
提供的功能足够胜任日常的数据预处理。

第 第
Kettle目前属于数据综合处理平台PDI的一个组件,该平台既有商业版,也有社区版,

如想免费使用,可以下载软件的社区版。

是否赔本赚吆喝?产品价值如何综合评估
2.Kettle下载和安装
Kettle下载地址见pentaho的社区版网站http://community.pentaho.com/projects/data-
integration,如图4-2所示。

该软件为绿色版,无须安装,解压后可以直接使用。进入软件解压的文件夹中,双击
spoon.bat文件可以启动软件,其图形界面如图4-3所示。

该界面左侧为“步骤”面板,右侧出现初始界面。当建立新文件后,右面会出现程序设
计画布。左面显示Kettle能够建立的两种类型文件(Kettle的帮助文件和相关资料都比较丰
富,本书中不做全部功能细节介绍)。这里展示使用Kettle在本次分析中做数据预处理的过
程,有兴趣的读者可以自己下载软件进行系统学习。

47

更多免费电子书搜索「雅书」 https://yabook.org
图4-2 Kettle下载界面
Tableau
商业分析 从新手到高手

图4-3 Kettle界面

3.Kettlt基本概念和基本操作
yy 步骤:Kettle软件将各种功能封装成独立的功能组件,每个功能组件称为“步骤”
(step)。数据处理是通过滚动鼠标中键拖动连接不同的“步骤”构造数据处理

48
“流”,然后执行“流”来完成。程序执行时会按照“步骤”的连接顺序对数据采取
不同的操作(有的操作是并行的)。
yy Hop:步骤和步骤之间的连接,定义数据的流动方向(如图4-4所示)。
yy 转换:Kettle的文件类型,可视为一种容器,用来存储数据处理步骤流。
yy 作业:Kettle的文件类型,可以配置调度不同的“转换”文件。
yy 连接操作:鼠标中键拖动“起始步骤”到后续“步骤”,就可以进行步骤间的连接。
yy 步骤参数配置:双击“步骤”会弹出对应的二级界面,可以配置“步骤”的相关参
数。

图4-4 Kettle转换文件界面

第 第

4.Kettlt预处理数据概述

是否赔本赚吆喝?产品价值如何综合评估
我们建立一个转换文件来进行数据预处理,以获得产品促销价值可视化分析所需要的基
础数据。(对于不熟悉数据预处理工作和软件的读者,开始的时候可能不容易理解这些操作
过程,这个比较正常,先跟随书中操作完成整个过程就可以了,随着对工具和各种数据处理
方法的熟悉,会慢慢理解和学会操作软件完成自己的特定目的)

回忆之前的分析问题,如何综合地衡量一个促销产品所产生的价值呢?首先,我们会观
察产品自身销售产生的盈利情况。其次,既然我们假定产品降价会带来客流增长,从而产生
附加购买行为创造了附加利润,那么可以计算产品关联购买行为产生的价值,来衡量这种营
销是否产生了预期效果。

我们计算产品本身的利润以及关联购买的利润,作为综合衡量产品促销价值的指标。转

49

更多免费电子书搜索「雅书」 https://yabook.org
换文件是在Kettle中实现整个计算的数据处理流(见图4-5)。

图4-5 Kettle的数据处理过程

4.3 Kettle的数据处理过程
(1)选择要连接的数据。打开Kettle软件,单击工具栏加号按钮➤单击转换命令新建一
个转换文件 ➤ 单击左侧步骤功能面板输入文件夹前的>图标,在展开项中选择CSV文件输入
步骤 ➤ 双击或者拖动该“步骤”到右面画布区域(如图4-6所示)。
Tableau
商业分析 从新手到高手

图4-6 选择要连接的数据

50
(2)连接原始的销售流水数据文件(如图4-7所示)。双击CSV文件输入步骤弹出配
置面板 ➤ 单击浏览按钮在弹出对话框中选择要连接的销售流水文本文件“20141_3M” ➤
在“列分隔符”栏右侧单击插入制表符按钮(文本框中看不到变化) ➤ 在“封闭符”文本
框中输入英文双引号(“) ➤在文件编码框设置“UTF-8” ➤ 其他设置使用默认项 ➤ 单
击下面的获取字段按钮,可以在界面下方看到连接文件中的字段。设置『sku』和『trans_
id』字段类型为“string”,单击确定按钮完成文件的连接设置。

定位到数
据文件

预览数据
文件

图4-7 连接原始的销售流水数据文件

第 第

(3)提取产品sku和 trans_id字段,之后作为不同计算结果的中间连接表。从左侧面

是否赔本赚吆喝?产品价值如何综合评估
板的转换文件夹中选择字段选择步骤添加到右侧画布区域 ➤ 以鼠标中键拖动“CSV文件输
入”步骤到“字段选择”步骤进行连接,在弹出菜单中选择主输出步骤命令(如图4-8所
示) ➤ 双击“字段选择”步骤调出二级界面 ➤ 单击获取选择的字段按钮获得所有字段 ➤
按键盘上的Delete键删除sku和 trans_id以外的字段。修改步骤名称为“sku+流水”。(软
件的“步骤”选择和“步骤”连接的操作基本一致,后面不再陈述过于详细的鼠标操作动
作。人工查找需要的“步骤”效率较慢,可以使用“步骤”功能面板上的“搜索栏”输入关
键字快速定位到需要的“步骤”)

51

更多免费电子书搜索「雅书」 https://yabook.org
图4-8 提取字段作为不同计算结果的中间连接表

(4)按产品汇总销售利润和销售总额(如图4-9所示)。将数据源步骤“CSV文件
输入”连接到另一个字段选择步骤[如图4-9(a)所示]➤ 保留 『sku』、『class_
code』、『sale_amount』和『profit』字段 ➤ 连接一个排序记录1步骤,更名为“产品排
序” ➤ 设置排序字段为『sku』、『class_code』[如图4-9(b)所示] ➤ 连接一个分
组步骤,设置分组字段为『sku』、『class_code』,聚合区域设置:将Subject项设置为
『profit』、『sale_amount』字段[如图4-9(c)所示],类型设置为求和,名称修改为
“产品利润”和“总销售金额”。

(5)汇总每流水利润(如图4-10所示)。连接一个字段选择步骤到“CSV文件输
入”,设置选择字段为『trans_id』、『profit』 ➤ 连接一个排序记录步骤,设置字段为
『trans_id』 ➤ 连接一个分组步骤,设置分组字段为『trans_id』,聚合项设为“profit”,
类型设为求和,名称改为“计算流水利润”。连接“sku+流水”和汇总每流水利润。
“sku+流水”步骤后面连接一个“排序记录”步骤,“计算流水利润”后面连接一个“排
序”步骤,两个排序步骤的排序字段都设置为『trans_id』。加入一个记录集连接步骤,
Tableau

将前面的两个排序步骤连接到记录集连接,双击调查步骤设置界面,设置两个连接字段为
商业分析 从新手到高手

『trans_id』(如图4-10中右图所示)。

1 Kettle软件进行数据连接处理之前,要求数据必须根据连接字段排序,所以数据连接之前,都要增加一个
排序记录的步骤。

52
(a)连接“字段选择”步骤

(b)保留两个字段 (c)

图4-9 按产品汇总销售利润和销售总额

第 第

是否赔本赚吆喝?产品价值如何综合评估
图4-10 汇总每流水利润

(6)汇总每个sku关联的流水得到总利润(如图4-11所示)。加入一个“排序记录”
步骤,将排序字段设置为『sku』 ➤ 连接一个分组步骤,分组字段设置为『sku』,聚合项
选择前面计算生成的“流水利润”,类型设为“求和”,名称修改为“关联流水利润” ➤
连接一个“记录排序”步骤,配置排序项为『sku』 ➤ 连接一个“记录集连接”步骤,将之
前计算的“计算产品利润”步骤和计算的“关联流水利润”步骤连接在一起。

(7)连接一个“文本文件输出”步骤,配置编码填写“UTF-8”,分隔符文本框填英
文逗号(,),将结果输出为一个文本文件(如图4-12所示),在Tableau中进行后续分析。

53

更多免费电子书搜索「雅书」 https://yabook.org
(a) (c)

(b)

图4-11 汇总每个sku关联的流水得到总利润
Tableau
商业分析 从新手到高手

图4-12 输出文本文件

54
4.4 产品促销价值的再分析
现在我们获得了不同产品第一季度总销售金额、销售利润和产品相关流水的销售利润的
数据,可以利用这些数据构造一个综合视图来观察所有品类的销售和盈利情况,分析不同产
品促销策略的价值。

绘制一个产品及流水利润的多维数据散点图观察数据情况(见图4-13)。图中每个点
代表一个产品,横轴为『产品利润』字段,纵轴为『关联流水净利润』字段,计算逻辑为:
产品的销售流水利润减去产品自身销售利润后的剩余净利润。圆的大小代表销售金额,颜色
代表销售利润状况,红色方向为负值。

第 第

是否赔本赚吆喝?产品价值如何综合评估
图4-13 产品及流水利润多维数据散点图

通过这张图,我们可以综合观察第一季度所有产品的销售利润状况,获得如下概要信
息:
yy 净利润为负的产品很多,折价促销确实成为了持续性的习惯。第一象限的产品,本身
销售利润为正,其关联流水的其他产品销售利润也为正。越向右上方代表产品本身
以及同时关联销售的产品都没有折扣或者折扣较少。第一象限(右上角象限)产品本
身净利润为正,购物篮中同时销售的产品利润也为正。这是商家最喜欢的硬通货象
限。第二象限(左上角象限)产品本身净利润为负,购物篮中同时销售的产品利润为
正。这是商家赔本赚吆喝的产品象限。第三象限(左下角象限)产品本身净利润为

55

更多免费电子书搜索「雅书」 https://yabook.org
负,购物篮中同时销售产品利润也为负。这是商家打算砍掉的产品象限。第四象限
(右下角象限)产本本身净利润为正,购物篮中同时销售产品利润为负。这也是商家
常做捆绑销售的产品象限。
yy 大折扣促销的产品数量很多。第二象限中横轴0点左面圆的面积相对较大,并且颜色
为红色,说明很大销售额的产品都在赔钱。这些产品的累计销售额很大,但都是大折
扣销售的产品,以至于利润为负。
yy 第四象限的产品数量最多,这部分的产品销售具有不错的利润,但同时,关联销售出
的产品具有让利行为,越向下的点代表让利越大。该象限多数点表现出沿对角线向下
的趋势,说明越是自身较大利润的产品,与其同时销售的其他产品上也给予了越大的
价格折让。
这样的策略算是成功的吗?是否应该作出调整?如何调整?

我们取几个典型的产品来观察:
yy 第二象限中最左边的A点,自身销售利润损失很高,约−160k(横坐标),属于深度
折扣产品(见图4-14)。关联流水销售利润170k左右(纵坐标)。假设关联销售
的利润确实是由于产品让利带来的,综合两部分利润来衡量,也属于低利润营销行
为。除非产品的销售规模可以扩大很多,否则价格折让的意义不大。例如,母婴类产
品的纸尿裤,销量大,打折多,是消费者最喜欢比价的商品,但同时也是引入客流的
重要商品。
yy 中间的B点,产品自身销售利润损失不多(属于价格适度折让产品),同时关联销售
相对获利也不错,属于不错的营销行为,如母婴类产品中的婴儿洗护以及手指饼干等
商品。
yy 最右下方的C点,自身销售利润较高,但关联流水销售上损失也很大。说明同时购买
的其他产品都有很深的折扣。设想商场的捆绑销售场景,几件商品组成了一个促销礼
包,比如“买一送三”“原价xx元,现价xx元”之类的。组合商品中通常包含了类似
C点的高利润产品,也包含了一定的类似A点的低利润产品。这样的营销场景屡见不
鲜,既可以在清库存时用,也可以在拉高C点的利润空间时用。
综上可以看出,深度折扣不算很优的策略,目前看适度折扣(B点)获得的综合价值不
Tableau

错。总体的数据状况至少可以说明,折扣越低未必带来越好的效果。然而,商家总要根据市
商业分析 从新手到高手

场需求和竞争策略进行打折的。我们作为商业分析师,需要做的是定期完成上述分析,定期
绘制上述图形,观察图形的变化,尤其查看它是否出现了整体向上、向下、向左或右移动;
以及查看各个象限中代表产品的诸多点是否有密度和形态的改变。假如商家调整销售策略,
改变商品组合,使得图形整体向第一象限移动,那恭喜了,通常表示整体盈利状况上扬。

56
图4-14 典型产品营销策略效果观察图

萧岚:时间关系,这个案例就先分享这些信息,有什么问题吗?

lisa:老师,我怎么觉得推理不是很严谨呢。首先,咱们案例以同时销售
的多件商品作为组合的购物篮,但是以我自己买东西的体验来说,我并不一
定是因为其中有商品打折才买的东西。换言之,一张购物小票中所包含的全
部商品,不管是不是有利润,都算作打折的营销效果,这是不是有点牵强?

第 第
其次,咱们绘制上面的‘典型产品营销策略效果观察图’时,只用了少量数 第
据,真实的消费者行为,有时候是第一次看到打折时不买,隔段时间再买,

是否赔本赚吆喝?产品价值如何综合评估
到底怎么截取数据分析的时间窗口呢?

萧岚:好问题!不错!能提出这些问题,说明你们的数据分析思维已经
上路了,呵呵。

首先,第一个疑问绝对合理,而且一定存在和折扣商品无关的关联销
售行为,就是无论是否有打折产品可买,其他的商品都会被购买的情境。但
无论关联销售是否折扣产品带来的,上面的计算都把效果归结于折扣商品,
这样,被评价的商品促销行为的价值只会多算,不会少算。如果是这样的情
况,那么得出“这个营销策略没有用”的结论就更有把握了。

57

更多免费电子书搜索「雅书」 https://yabook.org
第二个问题是非常好的问题。商业分析时的真实场景比案例演示的复杂
得多,必须综合考虑消费者其他时间点的购买。每家企业截取时间窗口的考
虑都不一样,有很多经验性的参考。不过其中有一点是很重要的,那就是用
数据库记录企业的营销周期,比如某月某日到某月某日春季大促之类的,这
样我们才可能知道什么是原价,什么是打折后的折扣价,以及运用哪种营销
策略效果更好。

术术:老师,觉得好复杂呀,我们要是真需要,想做也做不出来怎么
办?

萧岚:好办!找我们做咨询呗,教会徒弟撑死师傅的事,我们很愿意
做,哈哈。

娜娜:老师,沙龙上少推销,小心把人都吓跑了!

萧岚:唉,看来中国的知识付费路程,还是任重道远的……

娜娜:没事,有识货的!

萧岚:您是……

娜娜:我叫娜娜,大威在我们那做过数据挖掘项目。他介绍给我你们的
可视化交流沙龙,说是对我理解和推广数据挖掘模型有好处,看到你们这周
的日程,刚好有时间就过来了。对了,我做互联网金融行业的,以后还要多
多请教。

萧岚:不敢不敢,互相交流。

4.5 技术实现:用Tableau技术实现综合分析气泡图
Tableau

(1)单击菜单数据➤ 新建数据源 ➤ 连接预处理过程输出的文本数据集“产品获利评


估.txt” ➤ 预览数据,可以看到数据存储的5个字段,如图4-15所示。
商业分析 从新手到高手

(2)新建工作表 ➤ 双击『总销售金额』字段,会显示一个总销售金额的柱状图。单击
菜单分析➤ 去除聚合度量选项,每个个案显示为一个圆。拖动『sku』字段到标记选项卡的
详细信息项上,如图4-16所示。

(3)修改图形名称为气泡图➤拖动『产品利润』到标记选项卡的颜色项,拖动『总销
售金额』到大小标记项,单击界面右上角智能显示面板 ➤ 单击填充气泡图按钮。在工具栏

58
单击升序排列快捷按钮 ,得到按大小排序的填充气泡图,如图4-17所示。

图4-15 预览数据

第 第

是否赔本赚吆喝?产品价值如何综合评估
图4-16 步骤(2)对应的图

(4)基于同一个数据源新建一个工作表。新建『关联流水净利润』字段。在数据面板
区域空白区域单击鼠标右键 ➤ 在弹出的菜单中选择创建计算字段命令,弹出公式编辑界面
➤ 在“名称”文本框中输入“关联流水净利润” ➤ 在公式区域内输入“[关联流水利润]-[产
品利润]”,如图4-18所示。(在Tableau公式编辑面板中,如字段名比较特殊,如包含空格
需要用中括号括起,则可以从字段面板中直接拖动中文字段到公式编辑面板,以减少键盘输
入过程)

59

更多免费电子书搜索「雅书」 https://yabook.org
图4-17 按大小排序的填充气泡图
Tableau
商业分析 从新手到高手

图4-18 输入“[关联流水利润]-[产品利润]”

(5)制作散点图。拖动『产品利润』字段到列功能区域,拖动『关联流水净利润』字
段到行功能区域 ➤ 拖动『sku』字段到标记选项卡的详细信息标记项 ➤ 拖动『产品利润』
字段到标记选项卡的颜色标记 ➤ 拖动『总销售金额』到大小标记项 ➤在“标记”选项卡的下
拉框中选择O圆项目,获得散点气泡图,如图4-19所示。单击图上的点可以获得动态标记线。

60
图4-19 获得散点气泡图

(6)合并气泡图和散点图,插入文本对象书写说明,构建最后的综合动态观察仪表
盘,如图4-20所示。

第 第

是否赔本赚吆喝?产品价值如何综合评估
图4-20 最后的综合动态观察仪表盘

61

更多免费电子书搜索「雅书」 https://yabook.org
第二部分

客户主题分析

本部分通过几个案例探讨以客户为主要观察维度的数据分析,包括以下几个主题:
yy 客户合理分群;
yy 客户留存分析;
yy 客户生命期分析;
yy 产品促销反应分析。

本部分数据集说明
本部分数据模拟大型购物中心销售数据构建,数据粒度汇总到会员某类产品的购买金
额。每个分析主题具体的数据说明见下表:

主 题 数据文件 字 段 说 明
会员ID 会员唯一ID号
消费日期 会员购物日期
客户合理 四级类 购买产品的四级品类,划分层级较低,已经接近单品
会员分群数据
分群 品牌 购买产品的品牌
消费金额 消费金额
产品大类 产品最高级别分类
UserId 会员唯一标志
二级品类 产品二级分类
客户留存 会员创建日期 会员卡的创建时间
会员留存分析
分析 省市 省和地级市编码
销售日期 产品销售日期
销售量 产品销售数量

更多免费电子书搜索「雅书」 https://yabook.org
续表
主 题 数据文件 字 段 说 明
UserId 会员唯一标志
流水号 销售流水号
产品描述 产品名称
客户生命
RFM分析 Class2 产品所属二级品类
期分析
销售日期 流水单销售日期
销售金额 产品销售金额
会员创建日期 会员创建日期
Cardnum 会员唯一标志
areaprovince 地理区域缩写
促销分析
用券数量 购买中使用的优惠券数量
获券数 会员所获得优惠券的总数量
产品促销
产品小类 产品所属小类
反应分析
价格变化等级 价格按原价每10%划分的等级
价格弹性 折扣价格时期日均销售量按照原价平均日销售额
销量变化比(%)
变化的等级
值计算记录数量 计算销量变化值所依赖的记录数量

不知不觉间,可视化沙龙已经持续了半年,职业队伍不断壮大,来来往往的朋友和听
众越来越多,不过在北京这样的大都市中,很多的人都是过客,能够保持持续学习的人并不
多。

但沙龙中核心的这些人,由于对数据和可视化的热爱,都成为了要好的朋友,沙龙与其
说是技术的交流,不如说是朋友的定期聚会。尤其当新人很少时,话题可真是天南海北、精
彩纷呈……真没想到做技术的人都有这么广泛的爱好。不过想想也是,如果缺乏想象力和好
奇心,也不可能做好这一行。

今天的人到得相对比较齐,话题已经谈到了热门美剧……
Tableau
商业分析 从新手到高手

64
第5章
拒绝平均人:对客户进行合理
的分群

……

术术:我觉得迄今最好的美剧就是“西部世界”,但在有的论坛上的排名上倒不如“纸
牌屋”。

大威:“纸牌屋”是嫁接政治热点,“西部世界”有点故弄玄虚,为了炫技而炫技,而
且诺兰兄弟总是烂尾,我心中顶级好剧绝对是“绝命毒师”,没有之一,而且这部剧未来排
名一定会越来越好,时间才是检验经典的标准。

Lisa:就你们男人总是排名排名的,个人喜欢就好了。这个东西哪有什么绝对的标准。

大威:好的量化指标非常重要,你们女人不觉得而已,世界上的东西潜意识都是量化
的,要不你怎么比较好坏,怎么选择。彼得·德鲁克1说过,没有量化,无法管理,所以这个
问题……

Lisa:怎么总是德鲁克,这句话这两个月至少听过三遍了,有没有新鲜的。

大威:因为他确实是大师呀,古人云,站在巨人的肩膀上,我们才能……

娜娜:摔得更狠!

萧岚:哈哈哈哈,我们这的姑娘们都有“杠女郎”的潜力。大威,你还是别掉书袋了。
不过补充一句,不仅仅他们男人,女人更喜欢量化,不信想想你找了个男朋友,你妈问的

1 彼得·德鲁克(Peter F. Drucker)被尊为“管理大师中的大师”,具有现代管理学开创者的地位,被誉
为“现代管理学之父”。

更多免费电子书搜索「雅书」 https://yabook.org
是不是:工资多少呀?家里几口人?多高呀?有几套房、几辆车呀?看看,哪个不是量化指
标!

术术:以我的现实经验,合理的指标很重要,大威刚辅导我新设计了一套分析客户的模
板,因为和以往的指标体系很不一样,马上“遭到”了领导表扬,让我“再接再厉,继续改
进”。

娜娜:有新成果了,快拿来分享!

萧岚:看,谁说女人不喜欢数据,一听新东西眼睛就亮了。

术术:都不能白看,要提修改建议。另外老规矩,商业秘密,仅限内部分享。

5.1 分析思路:依据行为将客户分群

1.常见传统分析
交流自己的分析思路之前,术术决定带大家先回顾一下传统的企业报表,让大家有个对
比背景(在萧岚的反复教育下,提供背景信息的原则他和鹏辉是不会忘记了)。

传统的商业数据分析起源于卖方市场时期,主要服务于企业的财务需求。重点在于回答
生产和销售问题:诸如产品卖的怎么样、什么卖得好、什么挣钱等类型的问题。

从图5-1所示的传统商超销售数据统计图中可以看到食品类商品销售频次最多,作为包含
超市的综合购物中心,这个销售数据表现非常正常。进一步观察不同类商品的销售额和消费数
量,可以看到最高的销售额来自于消费频次相对没有那么高的服装、化妆品和家电类产品。

在一个基于卖方的市场,可能掌握这类信息足够作一些企业日常的决策了,如产品的
生产和配置、经营状况的追踪和了解。但在当前普遍竞争激烈的买方市场环境中,经营者需
要从销售数据中获得更多的信息。依靠这种传统的数据图表,我们仅仅知道所有消费者行为
的共同结果,但没有获得任何附加的个体消费信息。在数字化营销遍地开花,手机里一天收
Tableau

几十个弹窗消息的大数据时代,企业如果还只停留在看看昨天的销售额这个阶段,似乎落后
了。同时,消费者行为分析是商业分析的永恒主题,永远没有最好只有更好。假如你所在的
商业分析 从新手到高手

企业已经实现了针对一群消费者的特征分析,甚至实现了基于每个消费者的精准营销,那么
摆在你面前的将是更有难度和更重要的决策运算:如何平衡精准营销的成本与追踪精准营销
的获利状况,如何避免对消费者的过度骚扰实现管家般的贴心服务。不管你所在的企业处于
什么阶段,客户行为分群都是最基本的商业分析技能。

66
图5-1 传统商超销售数据统计图

2.以客户为主要维度的分析
由于新需求的出现,更多的基于客户维度的相关商业指标发展并逐渐流行起来。我们看
下面的一些计算指标,主要都是为了衡量客户行为特征而计算的。例如,“平均客单价”为
696元,“单品类客户平均消费额”为153元。

为了更全面地了解数据,可以绘制“客单价”的直方图(见图5-2)。按500元划分等
级,可以看到最多的购买行为金额分布在0~500元,“平均客单价”指标受到了极端值的很
大影响,接近700元,多数客户单次购买金额并没有这么高。

第 第

拒绝平均人:对客户进行合理的分群

图5-2 客户消费概况

67

更多免费电子书搜索「雅书」 https://yabook.org
我们希望了解更多客户行为细节的信息,但客户的数量巨大,累计的购买行为记录数量
更加庞大,不可能人工逐个分析,而计算获得的单指标都是一种比较概括的特征,依然无法
依据它获得更详细的个体信息。我们需要一种更合理的特征归纳方式,划分不同行为的客户
群体,以及探索不同群体的代表特征是什么。

为了合理地在一个比汇总数据更细、比商品消费细节数据更高的层级上归纳出客户的购
买行为特征,我们一般会根据需要重新计算生成一些特征指标,然后根据群体划分的商业目
标选择一些指标,使用聚类算法进行聚类分析,并对聚类结果进行归纳和探索,再根据所选
择聚类指标上的不同特征来归纳不同的群体特点。

这个客户分群中,我们希望综合考虑会员的消费金额、购物的数量、购物的品类结构来
对客户进行划分。为了能够识别出一些小特征群集,最终选择了划分10群。我们先来观察结
果,后面再介绍聚类指标构建的思考逻辑。

我们绘制群体聚类规模和群体消费金额的条形图(见图5-3)。可以观察到划分出的群
集聚类规模并不均匀,3个群集规模较大,其他的几个群集规模较小。不同群集贡献的购买
金额和群集规模并不完全对应。

图5-3 聚类规模和消费金额条形图
Tableau

继续观察会员购买频次和消费金额的散点图(见图5-4)。图中每个点代表一个会员。
商业分析 从新手到高手

散点图横轴为『购物数量』,纵轴为『消费金额(log10)』,点的大小对应『类平均购买
价格』。

靠近图形右上方的群体:消费累积次数多,累积金额多,点的大小相对较小。说明多数
购买的是低价格产品,多次的消费行为累积了高金额,推测主要是生活常用消耗品用户,并
且属于客户生命期比较长的客户。

图形中添加一条所有点到原点的趋势线(见图5-4),看到多数点汇集在趋势线附近,

68
说明多数客户单次平均消费水平接近(消费金额/消费次数),如果维持目前的消费水平,这
种消费特征的客户,消费额会随着时间持续增长,但不容易从其身上获得超级利润。

图5-4 消费频次和消费金额散点图

第 第
按照不同群集添加趋势线,观察不同群集的消费频次和消费金额关系情况(见图5-5)。 第
看到,有的群集以更少的产品消费频次贡献了更多的消费额。

拒绝平均人:对客户进行合理的分群
我们分开观察每个群集在不同大类上的购买数量和购买金额情况(见图5-6),图形的
柱形为群集的品类购买记录数,区域图(面积)为群集品类消费金额。不同图形表明的购买
记录数在其纵坐标轴上范围不同,可以方便观察群体在不同类上的购买分布;描绘金额的图
形坐标轴相同,可以辅助观察消费贡献。

大家可以重点关注一下散点图左上趋势线群集的购买行为,这部分人群以相对少的购
物,累积了较大的购买额度(1,5,8,9分群,群集10数量太少,观察到的行为偶然性太
大,可以暂时忽略)。

69

更多免费电子书搜索「雅书」 https://yabook.org
图5-5 消费频次及消费金额趋势线图

可以看到:
yy 群集1的总体规模不大,该群体行为显示了比较有趣的模式,在服装、化妆品和数码
产品(手机电脑)上都表现出了一定的购买倾向,群体中非常可能有大部分夫妻协同
购物者,我们称为“恩爱的协同家庭”。
yy 群集5和群集1的消费结构有一些相近,但群体1在食品上的消费比群体5要少很多,
Tableau

群体5在童装、户外用品上的消费要比群体1高。对这两个群体可以再做深入研究,
他们有可能属于不同年龄群体:群体1可能属于年轻情侣或夫妻;而群体5可能年龄
商业分析 从新手到高手

更大,多数有后代,所以童装消费更多,数据表现出更强的经济能力,总体贡献的消
费额很高,对生活品质可能要求更高,运动服饰和户外用品采购量相对更多。
yy 群体8表现出了显著的男性购物特征,家电品的购买量较高,群体中相当大比重应为
男性。
yy 群集9代表比较特殊消费模式的客户,除了少类产品,其他品类上几乎没有消费,群
体特征显示该群可能主要为男性群体,该群体在其他生活用品上的购买量很少,在日

70
常生活上应该有其他人照顾,在家中不太关心生活琐事,购买主要由其他家庭成员完
成。

图5-6 不同群体各类产品消费情况

复制一个之前建立的散点图,更换列数据维度为『类平均购买价格』,重新绘制散点图
(见图5-7),观察会员的其他消费特征。

图形上原点附近群集2的行为模式在这张散点图上可以观察得更加清晰,我们看到,该
群的购买总频次和类平均购买价格的值都比较小,作为数量规模最大的群集,这个群集需要

第 第
继续深入探索。如果是注册达到一定时期的老会员,说明客户生活中的多数购买行为都不是 第
在本购物中心完成,这种状况是不可改变的吗?如何让客户更多的消费转到自己的企业。如

拒绝平均人:对客户进行合理的分群
果是新会员,可能应该做一些营销动作,提升新客户的体验,在初期接触时期维持住多数客
户。

这张图上,不同群集购买频次数和购买产品的平均购买价格水平模式更加清楚。原点附
近的群集2,购买频次数和平均购买价格水平都较低,但群集规模最大,人数最多。

最后,我们组合多张图表构建一个综合观察仪表盘,设置好各种动态过滤,突出显示效
果后,可以作为一个群集消费情况的鸟瞰视图(见图5-8)随时跟踪观察经营状态。也可以
根据需要,随时调整群集的划分指标,探查更多的特征。

71

更多免费电子书搜索「雅书」 https://yabook.org
图5-7 消费频次和类平均消费价格散点图

下面来介绍聚类指标以及逻辑。聚类使用了三个指标——『购买总金额』、『客户购买
次数』和『类平均购买价格』(四级品类的平均购买金额),分别用来衡量客户购买的金额
多少、客户的购物数量的多少以及客户购物的平均价格水平。后两个指标和常用指标不太一
样,所以先进行一下说明。
yy 客户购买次数:会员不同日期购买产品的总数量。具体计算上,同产品不同日期的购
买和不同产品相同日期的购买都累计。稍作思考,可以发现这个指标综合考虑了客户
Tableau

购买的频率和种类,影响指标值大小的是客户购物的品种多少和行为频繁度,而非金
额的多少。
商业分析 从新手到高手

yy 类平均购买价格:指标是按照四级品类计算的类平均购买价格。数据中四级品类的层
级是一个相对小的层级,接近于产品层级。计算消费数据中所有四级品类消费金额的
平均值,命名为『类平均购买价格』,等于为每个品类构造了一个数值标签字段,在
聚类中使用了按会员计算这个字段的均值。这样,购物品种结构越接近的会员,在这
个指标上的值越接近,之间的计算距离会越小,越可能会聚到一类。

72
图5-8 客户分群综合仪表盘

当然,为了衡量会员购物品类上的特征,还有其他的处理方法,比如把每个产品类都变
成一个字段,会员在每个类上的消费生成一个字段值记录,没有消费类的字段值为0。但是
这样会增加大量的字段,并且多数字段会变成空值,在数据处理上难度更大,所以这里构造
了一个『类平均购买价格』指标作为聚类的一个指标,虽然思考逻辑上复杂一些,但数据处

第 第
理上简化了。而且从结果上看还是有一些作用,确实帮助我们识别出了一些不同购物模式的 第
群集。

拒绝平均人:对客户进行合理的分群
聚类分析是一种探索性的过程,该方法是通过数据寻找可能存在的特征群,分群数量
是通过观察数据并结合现实的情况逐渐确定的,甚至有时无法划分出具备明显特征的群集。
Tableau提供的聚类功能,可以自己设置不同的分群方式,这里尝试了几种方案后,最后选
择划分了10组,主要是为了能够区分出一些特殊购物行为的小群集。

另外,由于聚类指标距离设置的算法受到指标量级的影响。数量等级比较大的指标,会
绝对主导距离设置的计算,所以聚类使用销售金额(lg10)代替『销售金额』字段,以降低
量纲的数据级别,同时也方便在图形中观察模式。

73

更多免费电子书搜索「雅书」 https://yabook.org
术术:上面是我构造的综合分析模板的一部分。分析思路上大家有什么
问题吗?我们探讨一下,也可以给我一些建议。

娜娜:客户特征可以使用的变量应该很多吧,为什么只选择了这三个?
另外,为了消除量级的影响,为什么不进行数据统一标准化?还有一个问
题,也算是一个建议吧,既然分析中已经提到了会员的生命期,为什么模板
中不把这些信息一起加入进来呢?

术术:嘿嘿,娜娜姐不愧是老江湖,眼睛好毒,一下就抓住了这么多重
点,我逐个来回答。

先说变量选择的问题。第一,聚类分析本身是一种探索性的数据分析,
使用什么指标逻辑上取决于想要概括出客户什么样的特征。由于是多种指标
的特征归纳,使用的变量越多,获得清晰特征的可能性也越低。第二,指标
选择还要考虑现实条件,主要约束之一是信息的可获取性。比如我现在的部
门,在企业中并不是强势部门,公司多年来数据一直散布在多个系统中,数
据完整性、连接匹配度都存在问题,想要一次获取全部的数据进行分析,目
前还不可能,我们领导正在努力推进,但还要争取高层的支持。但在所有数
据整合完成之前分析还是要做,目前这些工作,在挖掘数据价值同时,也在
证实数据价值。第三,考虑计算效率,聚类是个很耗费资源的计算,即使条
件允许,选择变量时也要有节制。针对零售客户,购买频次和购买金额都很
重要,另外选了一个购买品类的平均价格,可以衡量消费等级,所以选择了
这三个变量进行聚类。

再说数据标准化的问题,我已经准备了其他的备选方法,但开始不希望
在技术细节上过于复杂,采用log函数比较简单,而且已经保证了计算后的数
量级不会差很多。后期会使用Tableau的详细级别表达式完成量级的归一,或
者直接使用R的标准化函数。

第三个问题的原因,部分前面已经说过了,是数据整合和数据质量的问
Tableau

题,另外是开始不想把分析模板做得过于复杂,新分析的内部推广是要循序
渐进、迭代式前进,用大威的话,这是吸收了敏捷的方法论。
商业分析 从新手到高手

Lisa:娜姐,你发现这术术最近专业范很浓啊,说的一些东西我都不大听
得懂了,越来越有他师傅的“风采”了。

大威:那是,他们公司付了点咨询费,我都快被他榨干了,连吃饭时间
都不放过我。

术术:那我不是也请你吃饭了吗!

74
大威:还说,你们知道不,他请客,我掏钱!

术术:(挠头不好意思)不就一次忘了带钱包了吗!

众:哈哈哈哈……

5.2 技术实现:用Tableau技术实现5.1节的分析
本部分数据集稍大,有些读者电脑如果配置不够,练习起来速度会比较慢,可以采用附
带的随机抽样的小样本数据(会员分群数据_samall.tab),用部分数据来完成图形构建。虽
然获得结果与书中不完全一致,但由于主要目的在于学习如何使用软件完成聚类指标的构建
和理解聚类分析逻辑,结果是否完全一致并不重要。

(1)连接数据文件。新建数据连接 ➤ 选择文本文件 ➤ 在弹出对话框中定位到分析数


据文件夹 ➤ 选择“会员分群数据.tab”文件 ➤ 单击打开按钮,连接会员消费数据,如
图5-9所示。(有时候一些文本文件的后缀无法自动识别,可以选择所有文件,就能在对话
框中看到文件)

第 第

拒绝平均人:对客户进行合理的分群

图5-9 连接数据文件

(2)过滤异常销售数据。在数据画布右上角的筛选器中单击添加,弹出“编辑数据

75

更多免费电子书搜索「雅书」 https://yabook.org
源筛选器”对话框,单击添加按钮(如图5-10所示),在弹出的对话框中选择“消费金
额”,在筛选器对话框选择至少,最小值设为“0”,如图5-11所示。

图5-10 单击“添加”按钮

图5-11 过滤异常销售数据
Tableau

(3)创建『类平均购买价格』字段(如图5-12所示)。在工作表标签栏单击新建工作
表,进入工作表视图。利用“详细级别表达式”汇总所有购买行为中的类平均消费金额。在
商业分析 从新手到高手

左面的“数据”面板中单击鼠标右键 ➤ 在弹出的菜单中选择创建计算字段命令 ➤ 弹出对


话框中命名字段为“类平均购买价格” ➤ 输入以下公式“{ FIXED[四级类] : AVG([消费金额
])}” ➤ 单击确定按钮,创建『类平均购买价格』字段。

76
图5-12 创建『类平均购买价格』字段

(4)创建散点图(如图5-13所示)。创建Log10消费金额字段:计算公式输入
“LOG([消费金额],10)”,构建以10为底的『消费金额』字段。『会员ID』字段被自动识别
为数字,拖动『会员ID』到数据面板维度区域。拖动记录数到列功能区域 ➤ 拖动『消费金
额(log10)』到行功能区 ➤ 拖动『会员ID』到标记面板详细信息,在弹出的菜单中选择添加
所有成员命令,在图形区域单击右下脚的NULL,在弹出的菜单中选择筛选数据命令排除消
费金额中负值造成的空值,获得散点图。

第 第

拒绝平均人:对客户进行合理的分群

图5-13 创建散点图

77

更多免费电子书搜索「雅书」 https://yabook.org
(5)修改公式(如图5-14所示)。拖动『类平均购买价格』到标记面板大小标记卡 ➤
双击生成的字段,进入编辑模式 ➤ 将公式从“SUM([类平均购买价格])”修改为“AVG([类
平均购买价格])”。

图5-14 修改公式

(6)进行客户分群(如图5-15所示)。从左侧数据区域进入分析面板 ➤ 拖动群集到
右侧图形上 ➤ 弹出群集创建面板,默认划分为3个群,为了划分出更细的人群,在群集数中
填写10,完成群集创建。修改工作表名称为“客户分群”。
Tableau
商业分析 从新手到高手

78
第 第

拒绝平均人:对客户进行合理的分群

图5-15 进行客户分群

79

更多免费电子书搜索「雅书」 https://yabook.org
(7)生成群集字段,添加趋势线。拖动标记面板中自动生成的『群集』字段到数据面
板区域,系统自动生成一个『会员id群集』字段,修改某名称为『会员ID(群集10)』,获得
一个可重用的『群集』字段(如图5-16所示)。再次进入分析面板,拖动趋势线到图形中
➤ 将其放在弹出的界面中的线性选项上 ➤ 在生成的趋势线上单击鼠标右键 ➤ 在弹出的菜
单中选择编辑趋势线命令 ➤ 在弹出的对话框中取消勾选“显示置信区间”选项,勾选“将y
截距强制为零”项(如图5-17所示)。
Tableau
商业分析 从新手到高手

图5-16 生成群集字段

80
图5-17 添加趋势线

第 第
(8)创建群消费条形图(如图5-18所示)。新建工作表 ➤ 将其改名为“分群规模和

拒绝平均人:对客户进行合理的分群
消费” ➤ 拖动『会员id(群集10)』字段到行功能区域 ➤ 双击记录数字段 ➤ 在右侧智能
显示中选择条形图 ➤ 拖动『消费金额』到列功能区域,在“未划分群集”字段值上单击鼠
标右键 ➤ 在弹出的菜单中选择排除选项,获得群组的规模和消费金额的图表。

81

更多免费电子书搜索「雅书」 https://yabook.org
图5-18 群消费条形图

(9)调整条形图格式(如图5-19所示)。在列功能区双击『总计(记录数)』,修改
公式为“countd(会员ID)”。在下面会员ID不同计数轴上单击鼠标右键 ➤ 在弹出的菜单中选
择编辑轴命令 ➤ 勾选“倒叙”项,单击确定按钮,在标记面板中修改颜色,获得规模和消
费的条形图。
Tableau

(10)构建不同产品类消费图形。新建一个数据表 ➤ 拖动『大类』字段到行功能区域
➤ 双击记录数字段 ➤ 在界面右上角智能显示面板中选择条形图 ➤ 拖动『会员id(群集)』到
商业分析 从新手到高手

列功能区域 ➤ 拖动『消费金额』字段到列功能区域,生成群集消费次数和消费金额图形,
如图5-20所示。

82
图5-19 调整条形图格式

第 第

拒绝平均人:对客户进行合理的分群

图5-20 构建群集消费次数和消费金额图形

(11)修改成双轴图,如图5-21所示。单击工具栏中的降序按钮 ➤在行区域选择『总
计消费金额』字段 ➤ 单击右边的下拉箭头调出关联菜单,选择双轴命令。

83

更多免费电子书搜索「雅书」 https://yabook.org
图5-21 修改成双轴图
Tableau

(12)在标记面板区单击总计(记录数)选项卡,在下拉菜单中选择条形图命令➤单击
总计(消费金额)选项卡,在下拉菜单中选择区域命令➤按键盘上的Ctrl+W键(或者按菜单
商业分析 从新手到高手

栏的“交换行列”按钮)翻转图形行列坐标 ➤ 在记录数坐标轴上单击鼠标右键,在弹出的
菜单中选择编辑轴 命令➤ 在弹出的对话框中选择每行或每类使用独立轴范围单选框(如图
5-22所示),获得群大类的消费图形(如图5-23所示)。

84
图5-22 选择“每行或每类使用独立轴范围”

第 第

拒绝平均人:对客户进行合理的分群
图5-23 群大类的消费图形

(13)隐藏坐标轴(如图5-24所示)。在行功能面板字段区域中单击『总计(记录
数)』下拉箭头,取消勾选“显示标题”选项,获得清理掉两侧坐标轴的图表。

85

更多免费电子书搜索「雅书」 https://yabook.org
图5-24 隐藏坐标轴

5.3 拓展技术专题5:直方图和散点图

1.直方图
将连续字段切割成为均匀区间,使用柱的高度来展示每个区间数据出现次数的柱状图,
称为直方图(如图5-25所示)。多数制图软件会根据数据的最大/最小范围,给出自动的分
割区间。用户也可以根据需要自己定义分割区间的长度。
Tableau
商业分析 从新手到高手

图5-25 直方图

直方图和箱型图都是用来观察连续数值的分布情况,但直方图可以展示出数值在不同区
间的数量。

86
2.散点图
将点按照(x,y)坐标绘制到二维坐标系上的图形就是散点图(如图5-26所示)。用来
描绘数据特征时,x、y值可以是多种属性的数值,例如,身高和体重、广告投入和销售额。

图5-26 散点图

散点图可以非常直观地显示出两种数据的关系,每一个点都代表一个观测值,非常多的
点绘制成图形后,可以在宏观上观察到指标间的关系模式,是一种“既见树木也见森林”的
可视化图形。

散点图不为大众所了解。一般大众制作图表报告时,经常用双线图形而非散点图。双线
图非常容易受到指标量纲的影响,同时,对非线性关系的探索和揭示远远不如散点图。

5.4 拓展技术专题6:Tableau与R语言

第 第

Tableau提供了函数接口,可以和R语言进行通信。可以直接从Tableau向R传递字段,

拒绝平均人:对客户进行合理的分群
在R中进行计算后将结果返回Tableau。

Tableau没有提供随机数功能,如需要随机分配数据进行模式观察则非常不方便。下面
提供一个从R中获取随机数的小范例,以示范Tableau和R语言的连接过程。

首先,R语言需要安装“Rserve”包并启动该包:

install.packages(“Rserve”)

library(Rserve)

Rserve()

87

更多免费电子书搜索「雅书」 https://yabook.org
在Tableau中单击帮助菜单 ➤ 设置和性能 ➤ 管理外部服务连接 (如图5-27所示)➤
单击测试连接按钮(如图5-28所示),如果弹出如图5-29所示界面则证明通信成功。打开
一个Tableau文件,里面存有一个『id』字段,在左侧字段区域单击鼠标右键 ➤ 在弹出的菜
单中选择创建计算字段命令 ➤ 将其更名为“Rrand”,输入公式“SCRIPT_REAL(“runif(.
arg1)”,count([记录数]))”。

图5-27 选择命令 图5-28 单击测试连接按钮

图5-29 通信成功

创建一个新工作表,将『id』字段拖放到行功能区域,将『Rrand』字段拖放到『id』后
面,运算后将得到R返回的随机数。
Tableau

我们看到,只有当R返回的记录数和输出的记录数相匹配时,才可以正确传输通信数
据,所以,对于一些复杂处理(例如,使用构建好的模型对新的输入数据进行预测),并不
商业分析 从新手到高手

能以这种方式完成。更合理的方法是:将R处理的结果输出成文件,Tableau再去处理结果文
件,这样的灵活性更高。

88
R语言和Tableau都可以处理很多种格式的数据,也都可以和数据库通信。本书中第12
章的案例给出了Tableau和其他工具通过中间文件结合工作的场景演示。

5.5 拓展技术专题7:聚类分析
聚类是现实中很自然的一种人类行为——将个体对象按照某种标准进行衡量,将相似的
划分为一组。

按这种思想所实现的算法,称为聚类分析。核心的逻辑是:计算个体之间的直线距离,
将距离近的个体划分为一群。影响聚类结果的关键因素是,用来计算距离的变量和距离计算
所采用的公式。欧式距离是常用的一种计算方式,如图5-30所示。

图5-30 欧式距离

聚类计算具体实现的算法有很多,但两两之间的距离计算需要消耗大量的运算资源,所
以比较常用的是做了算法优化的K_means(k均值聚类)以及以它为基础的一些优化算法。

第 第
具体的实现逻辑是:先确定聚类所使用的数值指标和数量,然后随机分配初始的聚类中 第
心,计算出每个点到中心的距离,然后根据这个距离的大小决定点的划分,再根据划分好的

拒绝平均人:对客户进行合理的分群
聚类重新计算每个聚类的中心,计算所有点到新的中心点距离,重新分类。循环以上过程,
直到中心位置变化很小或者其他的计算停止。

聚类过程中心点随着迭代逐渐变化,直到计算停止,所有的点被分配给不同的群,如图
5-31所示。

89

更多免费电子书搜索「雅书」 https://yabook.org
图5-31 聚类的迭代过程
商业分析 从新手到高手

90
Tableau
第6章
重塑客户漏斗:研究客户流失模式,
识别关键因素

得益于咖啡沙龙中大家无私的技术交流,每个参与者都小有收获。上回看到大家尝试了
用多种工具配合Tableau实现客户行为分析,萧岚想好了最近一次技术分享会的主题,那就是
分析企业最关注的客户问题:客户是否流失了?如果没有流失,怎样能提前察觉异动,进行
客户挽留?

客户流失的定义在不同的企业差异非常大,同时,能够用于客户流失分析的数据源质量
差异更大。电商平台上的数据质量相对较好,于是今天萧岚将参与过的一个既有实体店又有
电商店的母婴企业案例带来与大家分享。

6.1 分析思路:客户留存漏斗分析
经典营销学的理论,早已从各种角度证实了与老客户做生意比新客户的成本更低。但现
实中,很多企业在老客户的维持和留存上,并没有采取什么特殊的策略,老客户的流失还是
比较严重的。这种现状的形成有一定的现实原因:例如,很多商业场景中,客户流失行为不
容易精确界定(少数商业场景可以在精确时点确定流失,例如:客户停止订阅杂志、电话用
户主动停机);或者商业模式是低附加值、针对大众的生意,没有大客户概念,企业不能也
不需要对个别客户进行特殊关注;又或者,内部的营销管理中缺乏有效的分析和反馈机制,
不容易建立起有效的目标客户行为体系,既然无法作为,就放之任之。

更多免费电子书搜索「雅书」 https://yabook.org
那么,企业应该如何用好数据,做好老客户的分析、维持和营销管理呢?

大多数现实的商业环境中,如果企业无法从一开始就构建出比较有效的客户流失模型,
则部署和使用模型结果的难度更高。如果从一开始就构建了复杂的客户流失预警模型,那就
可以方便地进行相对宏观的客户留存漏斗分析,而这又是一个更精确的客户留存分析起点。

由于母婴市场具有巨大的发展预期,任何综合零售商都不可能对其视而不见,所以几乎
所有综合类电商平台,例如京东、当当、一号店、我买网,以及微商平台,例如大V店、全
球时刻等,都把母婴类商品当作“拳头”商品,放在APP的最佳位置上进行推荐。各大实体
超市也是毫不示弱,母婴类产品单独占据了整排的货架。下面介绍常用的客户漏斗分析。

首先观察一下不同月份注册用户的总体留存情况,见图6-1。图形的纵轴为用户注册月
份,横轴为用户购买时间所对应的月份。每个柱子代表,在纵轴对应月份注册并在横轴对应
月份有购买行为的人数。

图6-1 用户留存图
Tableau

截取的数据中,每个用户时间窗不同,但保证了每个用户从注册时间开始有12个月的行
商业分析 从新手到高手

为观察期。会员购买行为按照注册年月和购买年月两个时间特征交叉汇总。每一行第一个柱
子代表,横轴对应月份注册并在注册当月之后的月份还有购买行为的用户数量,可以视为注
册后一定时间点依然留存的用户。

从图6-2可以看到,每一行图形的变化模式相似,则说明不同时期注册的用户留存情况
接近,留存情况和注册时间没有明显的关联关系。

92
图6-2 会员留存情况

当前的图形中时间轴为绝对日期,为了便于观察,将横轴替换为相对时间——客户生命
期(购买时间和注册时间的月差值)。

对图形做了翻转和对称复制处理,绘制成大家更熟悉漏斗图(见图6-3),可以更明显
地看到,虽然有一些小差异,但总的会员留存模式比较接近。新注册用户在第二个月复购人
数大幅度地减少,但在之后的时期会有比较稳定复购频率。

是否大规模用户的市场留存率就是这种水平呢,有没有提升的空间呢?我们再来观察

第 第
一下不同地域用户的留存率情况。为了观察方便,增加了一个时间维度字段『购买点会员生 第

命期』(以注册月份为基准,计算购买月份距注册月份的月份差)。将横坐标轴字段修改为

重塑客户漏斗:研究客户流失模式,识别关键因素
『购买点会员生命期』,增加了一条会员留存率曲线(橙色线),见图6-4。

母婴购物行为在人口自然生命期的特征上具有高度相似性,“妈妈所处的怀孕阶段和
孩子几岁了”通常比会员卡所记录的客户年龄、性别、职业等更加重要。除此之外,会员获
取渠道和客户初期的购买行为模式可以作为拓展研究的维度。因为会员获取渠道涉及到企业
的商业秘密,所以这里不作阐述。后面展示客户初期的购买行为,希望从数据中获得两种信
息:可以推测客户未来留存模式的因素、高留存率群体的特征。

93

更多免费电子书搜索「雅书」 https://yabook.org
图6-3 会员留存情况漏斗图
Tableau
商业分析 从新手到高手

图6-4 不同生命期会员留存图

在没有精确的客户行为(如退订、客户主动注销)来界定客户流失的商业场景中,需要
定义一个客户购买无行为的时段,以定义流失。一般而言,客户无购买行为时间超过这个时
段,就认为客户流失。按经验,12个月是是一个合适的时段。

按照这个标准,我们根据第12个月的客户留存情况,将不同购买地域用户归纳为三个不

94
同等级组(高留存组、中留存组、低留存组);另外,将图6-4中得分最高组SDWF(山东
潍坊)与最低的Web(电商平台购买)做综合分析,观察不同组不同品类首次购买的平均数
量和金额情况,见图6-5。


图6-5 不同分组的每月留存率情况

绘制不同留存率分组在不同品类首次购买数量的“热力图”(见图6-6),观察不同留
存率组的首次消费的品类情况。(颜色越深的单元格代表购买数量越多)

第 第

重塑客户漏斗:研究客户流失模式,识别关键因素

图6-6 不同组首次购买产品热图

首先发现,通过网络注册的电商用户行为模式和实体店的客户购买模式非常不同,电商
用户注册之后的每个月留存率普遍低,说明想要维护住信息渠道高度发达、普遍具有“比价
购买”行为模式的网络用户很困难。

95

更多免费电子书搜索「雅书」 https://yabook.org
留存率最高的SDWF地区的用户,首次购买行为中防尿用品的平均购买量高于其他群体
(见图6-6)。这是高留存率用户组的偶然行为,还是在营销上可以产生价值的持续特征信
息?如果在客户注册初次购买行为中努力多促成这种产品的消费,是否会提高留存率呢?这
个问题在当前的数据中无法获取答案。

我们根据这些线索继续搜集和整合了大量数据,做了更深入的研究。同时,为了验证多
种营销设计的实际效果,我们选择了部分门店做A/B测试,再使用A/B测试的结果为企业的大
规模营销行动提供直接指导与结果对比。

萧岚在讲完了基本思路之后补充到,以上这些就是能分享给大家的信息了,实际探查的
数据维度更多,获取到的信息更丰富。这里对数据做了脱敏处理和信息量缩减,大家主要参
考思路。客户漏斗分析的关键在于,找到影响客户留存的关键因素,然后设计一些现实场景
去测试,发现如果关键因素是有价值的,就可以通过改变这些关键因素来影响留存,从而重
塑客户漏斗到更有价值的形状。

图6-7是整个客户留存监测仪表盘的第一版,仪表板上进行了详细的分类,可以动态筛
选不同品类的留存数据。
Tableau
商业分析 从新手到高手

图6-7 客户留存监测仪表板

96
萧岚最后还不忘提醒大家美化自己的数据分析作品。“仪表盘
(Dashboard)”通常需要按照企业的管理思路与使用习惯来设计。有的人
习惯从左上角开始阅读数据,有的人则习惯从中间开始。设计仪表盘之前,
请观察企业内部正在使用的报表。不同层级的管理者通常具有不同的报表权
限,因此还需要考虑到高层、中层与基层的管理视角。

“客户留存监测仪表盘”采用了从总到分、从绝对到相对的逻辑。左上
角放置了绝对表现的图表,右上角补充相对表现。仪表盘中部与底部的品类
表现,通常是管理者看到总体表现后可能会随之而问的二级问题。同样,商
家的品类经理也非常关注自己所负责的品类与总体相比表现如何。

6.2 技术实现:用Tableau技术实现6.1节的分析
(1)连接数据。新建Tableau文件,单击数据菜单 ➤ 新建数据源 ➤ 文本文件,定位到
要分析的数据的存储路径,连接“会员留存分析”表。在数据预览区域,单击『UserId』字
段类型下拉菜单 ➤ 更改字段类型为字符串,如图6-8所示。

第 第

重塑客户漏斗:研究客户流失模式,识别关键因素
图6-8 更改字段类型

(2)构建『购买点会员生命期(月)』字段。『会员创建日期』多了时间记录内容,
不能正确识别为日期格式,需要处理。在字段上单击鼠标右键 ➤ 自定义拆分,弹出对话
框,在“使用分隔符”后输入空格,单击确定按钮系统自动切分出一个字段,如图6-9所
示。将原字段名改为“会员创建日期(原始)”,将新生成的字段名称修改为“会员创
建日期”,修改字段类型为日期。新建工作表,进入工作表视图,将其命名为“相对周
期观察”,在数据面板单击鼠标右键 ➤ 创建计算字段,将其命名为“购买点会员生命期
(月)”,在公式编辑界面中输入公式“DATEDIFF(‘month’,[会员创建日期],[销售日期])”。

97

更多免费电子书搜索「雅书」 https://yabook.org
(3)构建绝对时间留存观察图。拖动『销售日期』到列功能区 ➤ 拖动『会员创建日
期』到行功能区 ➤ 单击字段下拉箭头,在其中选择月,这样即配置日期计算到“月”层级
➤ 拖动『UserId』字段到行功能区,修改计算公式为“COUNTD([UserId])”,切换标记为
条形图 ➤ 将会员创建日期字段拖入颜色标记,切换成“月”层级 ➤ 将行上的年份标题隐
藏,如图6-10所示。

图6-9 切分字段
Tableau
商业分析 从新手到高手

图6-10 构建绝对时间留存观察图

(4)拖动之前创建的『购买点客户生命期(月)』字段到筛选器面板区域,选择值范
围项,设置范围为0~12,如图6-11所示,完成绝对生命期客户留存观察图。

(5)在工作表上单击鼠标右键 ➤ 在弹出的菜单中选择复制命令直接复制整个工作表,

98
如图6-12所示。将新复制工作表列功能区域『时间』字段替换为『购买点会员生命周期
(月)』,将其改为维度,切换为离散,获得相对周期观察表,如图6-13所示。

图6-11 筛选器面板 图6-12 选择“复制”命令

第 第

重塑客户漏斗:研究客户流失模式,识别关键因素

图6-13 相对周期观察表

99

更多免费电子书搜索「雅书」 https://yabook.org
(6)复制“相对周期观察表” ➤ 单击菜单栏“翻转”按钮 ➤ 删除行列功能区的
日期字段 ➤ 双击字段将公式修改为“COUNTD([UserId])/2” ➤ 按住Ctrl键拖放到后面位置
复制一个相同字段 ➤ 将前面字段改为“(-COUNTD([UserId])/2)”,标记面板,单击图
形下拉框箭头,选择区域,去除颜色标记,完成传统的漏斗图形制作,如图6-14所示。

图6-14 完成传统的漏斗图形制作

(7)制作按地域观察图形,如图6-15所示。复制相对周期观察表成为一个新表 ➤ 去
除时间字段,将省市字段拖入行功能区 ➤ 按住Ctrl键拖动『计数(不同)(UserId)』字段到
行功能区域,复制一个相同的汇总字段 ➤ 单击下拉箭头,在其中选择添加表计算 ➤ 在表计
算面板的“计算依据”中选择表横穿,“计算类型”选择百分比,“所在级别”选择相对于
Tableau

第一个。

(8)在行功能区单击字段『计数(不同)(useid)』的下拉箭头,选择双轴 ➤ 在标
商业分析 从新手到高手

记选项卡单击表计算标识的下拉菜单 ➤ 选择线,单击标签 ➤ 勾选显示标记标签,获得最终


图形,如图6-16所示。

(9)拖动『省市』字段到行功能区域最前面 ➤ 删除后面两个维度字段(蓝色),获得
各省客户留存图形,如图6-17所示。

(10)根据12个月后客户留存分组情况对『省市』字段重新分组(如图6-18所示)。
保留SDWF,将Web作为单独组,其他以10%为间隔分为三组 ,更改字段名称为“留存率

100
分组”。

图6-15 制作按地域观察图形

第 第

重塑客户漏斗:研究客户流失模式,识别关键因素

图6-16 显示标记标签

(11)新建『首购标志』字段,公式为“int(date([会员创建日期])=[销售日期]) ”,如
图6-19所示。

101

更多免费电子书搜索「雅书」 https://yabook.org
图6-17 各省客户留存图形
Tableau
商业分析 从新手到高手

图6-18 更改字段名称 图6-19 新建『首购标志』字段

102
(12)制作不同组首次购买产品热图。新建工作表 ➤ 拖动『二级品类』字段到行功能
区 ➤ 拖动『留存率分组』字段到列功能区 ➤ 将『销售量』字段拖动到标记面板文本项 ➤
将『销售量』字段拖动到颜色项 ➤ 将公式全部由“汇总”更改为“平均值” ➤ 将『首购标
识』字段拖动到筛选器面板,设置显示“1” ➤ 在智能显示面板中选择突出显示表(如图
6-20所示),构建不同留存率组首次购买情况图表(如图6-21所示)。

第 第
图6-20 构建不同留存率组首次购买情况图表 第

图6-21 不同留存率组首次购买情况图表 重塑客户漏斗:研究客户流失模式,识别关键因素

6.3 拓展技术专题8:分析的数据粒度
现实的数据属性常会有不同的层级关系,例如,产品的分类属性具有嵌套类层级,日期
具有不同的分层(从年→季度→月→日……),地域也有不同属性。数据所处的不同级别一

103

更多免费电子书搜索「雅书」 https://yabook.org
般被称为数据的不同粒度。分析者应该清楚自己所处理数据的最小粒度,结合自己的分析目
标,合理地决定数据分析的粒度。

例如,6.2节的漏斗分析,数据上也可以汇总到产品二级分类的粒度,但如果分析者站
在整个企业的角度来看,这种指标计算粒度就不太合适。从一个品类看,客户长期不再有该
品类的购买行为就已经流失;但从企业总体平台角度来观察,如果客户还有购买其他产品的
行为,则客户依然处于留存状态。

图6-22 不同品类的销售漏斗

再考虑另外一种商业情况。例如,一个大型商场内的品牌店,在做客户留存分析时,就
应该从品牌的粒度进行分析。这时,就算客户仍然是整个商场的客户,依然在商场的其他店
铺消费,但如果很长时间都没有购买自己品牌的产品,那么客户和自己的品牌也没有什么关
系了,对于这个品牌来说,就是一个流失的客户。

理解了数据粒度,就知道针对某一个具体的分析应该精确到什么粒度,或者当前的数据
粒度水平是否能支持要进行的分析。
Tableau
商业分析 从新手到高手

104
第7章
简约不简单:RFM分析与客户生命期
分析结合

术术:大威老师,关于上次分享的客户留存分析,我自己去查阅了一下资料,也研究了
一些相关的流失分析模型和客户生命周期分析的资料,但有一个问题一直都想不明白。

大威:我猜是关于客户的“起死回生”是吗?

术术:是的。

Lisa:你们都开始研究玄学了,还起死回生。

大威:呵呵。其实客户生命周期是借鉴了医学研究领域的说法,但医疗领域里面的模
型——病人的状态只能是“死亡”或者“无法跟踪”等,状态是确定了的。而商业场景下,
尤其是购买行为频繁的零售行业,无论你用什么标准来界定客户的流失,总会发现会有一些
“流失客户”又返回了。

比如,有的企业定义6个月没有购买行为的客户为流失客户,是希望能够尽早地发现客
户的流失状态,做一些营销动作。但如定义得过短,则判断为流失的比率过大,无法做出针
对的行为。而且,经常可能发现之后的一两个月什么事情都没有做,有一些已经流失的客
户又回来了。应如何处理这种状态的客户?如果将其更改状态为“非流失”,那么很多客户
在两个状态之间变来变去,连归纳特征都无法进行,更不要说建立模型,因为模型的
目 标 ——“流失客户”标签都是不稳定的状态。如果把客户流失的时间定义成很长,比如
三年,虽然状态异常的客户比率会很少,但这样就不能提前预警,也无法研究流失客户的特
点,则定义特征就没有意义。

更多免费电子书搜索「雅书」 https://yabook.org
娜娜:我之前的企业在定义客户留存率时,也碰到了这个问题,时间截点也改了几次,
最后调整到大家相对接受的180天。将距离上次行为150天无活动的客户定为“休眠”状态,
180天无活动则定义为“流失”状态。但也不是所有的人都觉得合理。既然你留意到了这
些,应该有一些解决方法吧,别卖关子了,说来听听。

大威:流失分析属于客户生命期分析的一种,逻辑上说起来简单,但用好很难,有很
多方法可以和它结合。或者说,在方法上升级到流失建模之前,有很多的前置性分析都应
该做好。今天我在这里“借花献佛”,再给大家一下介绍客户分析系统中的另一个模块
——RFM_L。

7.1 分析思路:关于客户生命周期的分析
客户的生命期是借鉴人的生命周期的概念,即,客户购买企业产品的时间定义为客户生
命周期的开始。商家持续追踪和分析客户的行为,目的是希望通过对客户购买行为的研究,识
别出机会和问题,进行相对客观、明智的商业行为。各种分析理论,一定要结合现实的场景特
征进行各种改造,而不是按照理论生搬硬套。

在客户生命周期的分析中,将客户的流失视为生命期的结束。企业当然不愿见到客户流
失,所以常见的分析方向是建立客户流失的预警模型,希望提前对客户生命期的结束进行预
警,即使客户无法挽回,企业也可以根据流失得分提前评估总体流失状况。

有效使用客户流失模型难度较高,这种建模一般采用“有监督模型”,模型算法需要一
个明确的“客户流失标识”字段作为预测目标来进行“学习”。但合理地定义“客户流失标
识”字段需要很多附加的信息。而且,在企业有能力围绕模型结果建立起一系列配套的营销
措施之前,也不容易对流失预警模型的结果进行有效地利用。

传统商业分析领域,留下了很多简单有效的分析方法,只要针对各自的商业环境并结合
行业经验稍加改造,往往可以获得不错的效果。另外的一个好处是,当这些基础的分析都完
成后,最顶层的数据清理和准备工作基本已经完成,系统构建人员和数据使用者对数据的质
Tableau

量和价值有了总体的把控,未来更深层次的模型构建工作会事半功倍。
商业分析 从新手到高手

下面我们来看另外一种起源于零售行业的分析——RFM分析。零售行业具有以下特点:
商品购买多数为高频行为,没有绝对重要的单品;销售额由广大客户群体重复购买贡献,没
有绝对重要的个体客户。所以,零售行业的分析就要求,关注很多个体消费形成的群体消费
模式,关注以人为测量维度的、反映购物行为的指标。

“RFM分析”框架包含以下三个指标,解释起来非常简单,但指标构建之于商业目的又
非常巧妙。
yy M为money缩写,代表客户总的消费额度。

106
yy F为frequency缩写,代表客户购买频次(很多人将其误解为产品购买数量)。
yy R为rencently缩写,代表客户最后购买点时间距离当前时间的差。
这样三个指标就概括了一个客户的购买特点:

(1)M——消费了多少。

(2)F——消费了多少次 。

(3)R——最后购买时点距离当前时间多久(等于为上面两个指标构造了一个相对时
间轴,以区分不同时点的相同指标,例如,到1个月前,消费10次累计10万的用户,和到5个
月前消费10次累计10万的用户特征是不同的。这一指标的另外的一个作用是,衡量客户当下时
点的活跃度。)

每个人上述三个指标的综合状态,可以描绘出个体的状态,而所有人的这三个指标联合
起来观察,就获得了产品用户的消费特征群像,三个指标还有不同的时间变化特点:
yy F和M是追随消费行为的静态指标:消费行为不再变化,指标就不会更新。
yy R是随时间变化的动态指标:无论客户是否有持续的消费行为,该指标都会随着时间
而变化。
下面具体来看数据信息在分析中的使用。

首先观察数据集内最后一个月内有消费的客户,以30天为间隔绘制直方图(如图6-20
所示)。可以看到,最后月份有消费行为的客户,以生命期1年期左右的客户为主,2~3年
的老客户也具有相当的比重。就零售行业来说,客户生命周期的结构还算健康(因为要观察
复购客户行为,所以数据中排除了当天办卡当天消费的客户)。

图7-1分析了仅仅在最后1个月有购买行为的用户情况,并非企业客户的完整状态。数

第 第
据统计期间(最后一个月)没有消费的客户不会被计算在内,所以无法观察这部分客户的状 第

态。

简简简简简简
接下来采用“RFM分析”的指标体系,逐步地观察企业整个客户群体的生命周期状况、
消费情况和活跃情况。为了能观察到客户加入的时间长度,我们又增加了一个客户生命周期
(Life)的观察维度,计算方式为客户最后一次购买行为点的客户生命周期。为区别于常见

的RFM分析,这里把引入了新变量Life的分析取名为“RFM_L分析”。(前三个指标计算依 简
简简简简简简简简简简简简

赖于客户的购物行为,最后一个指标依赖于客户的办卡时间,所以用下画线隔开以示区别)

首先观察消费频次与金额散点图(图7-2)。绘制一条过原点的趋势线,图中颜色比较
深的区域,是很多点重叠在一起。多数点围绕在趋势线的附近,则说明多数用户的消费金额
和消费频率比率保持稳定——即多数消费行为的客单价的水平相对比较稳定。从通过原点拟
合的趋势线(回归线)系数可以看到,客单价平均在200元左右(无截距回归线的系数代表
客单价平均水平)。

107

更多免费电子书搜索「雅书」 https://yabook.org
图7-1 最后一月消费会员生命周期构成
Tableau
商业分析 从新手到高手

图7-2 消费频次及金额散点图

加入了生命周期颜色映射的散点图(图7-3),观察所有客户最后一次消费的时间点距离
2014年8月1日(数据提取时间范围之后月份第一天)的天数。比较小的R值对应比较鲜艳的颜

108
色,代表最后一次消费时间距离分析时间点较近,客户仍然活跃。现在可以更加清晰地看到,
靠近右上方的、相对而言消费频次和总消费金额比较高的用户,多数是较活跃状态的用户。

图7-3 加入了生命周期颜色映射的散点图

我们进一步探查这些活跃的、消费额较高的群体,在最后的消费时间点都是处于生命周
期的什么状态?是一些老客户呢,还是生命期中等的客户,抑或刚刚注册的新客户?另外,
我们也会感兴趣接近流失状态的蓝色点代表的客户(最后一次消费时间点距分析时间点很长
时间),到底是客户生命期初期就停止消费走掉了,还是一部分老客户流失掉了。

在图形中加入客户最后一次消费时间点的生命周期信息,以图形大小来表示(RFM_L

第 第
散点图,图7-4)。观察不同消费状态的客户生命期状态,我们看到,颜色鲜艳的活跃用户 第
群体中,消费频次和金额比较高的用户,他们中的多数生命期比较长(数据点相对较大)。

简简简简简简
另外,有一部分点很小,但消费频次或消费金额和群体平均水平相对比较较高(图中深
灰色线为平均值线),说明这些用户在相对短的期间累计了较高频次的消费次数或者金额,
这为我们提供了一个值得追踪的客户群体的线索,存在着一类群体,他们具备这样的特点:
成为客户的周期并不是很长,但累计消费频次和金额超过同期或者更长周期的用户。这个群 简

体有可识别的特征吗?这种商业上价值很高的消费行为,是某种群体特点造就的,还是早期 简简简简简简简简简简简简

和企业的某些互动环节的影响造成的?想要更进一步地了解这些问题,我们需要进一步研究
该类客户的品类消费模式和客户特征。

另外可以看到,图中多数蓝色的点较小,说明这些基本流失的客户,都是在客户生命周
期的早期就走掉了,这是不可避免的吗?和上面发现的客户生命周期早期显示出强大购买力
的群体,在本身特征上和企业的交互行为上有什么区别和关联?

109

更多免费电子书搜索「雅书」 https://yabook.org
图7-4 RFM_L散点图

后续需要对客户进行分群,研究不同群体的特征。观察早期显示出强大购买力的高价
值群体的各种可获取的数据特征,可以发现高价值客户的特征和行为模式。如果结合建模工
具,也可以将这类群体直接定义为一个标识字段,采集大量的其他维度客户特征,通过建立
模型的手段,自动化地搜索客户的综合特征。如果用模型可以发现该群体的特征,则可以在
早期定位到该人群。同时针对该群体的特征,研究商业上的策略和手段,以便在接触初期建
立良好的客户体验,获得更长久的客户关系,以获得更多的利润。

最后,回到开始的主题,这个分析和流失分析有什么样的关系呢?

(1)通过RFM_L分析,企业可以对所有客户的购买和留存状态有比较清楚的认识,为建
构更复杂的模型所需要的一些指标和方法,提供了很多有价值的前置经验,如图7-5所示。

(2)在这个分析中,每个客户的四种状态可以作为流失模型的输入,结合客户的其他
Tableau

特征状态,进而构建出复杂的流失预测模型。
商业分析 从新手到高手

综合观察指标体系构成后,除了进一步地建模之外,还可以结合现实中的商业目标、营
销动作以及其他的数据信息产生很多其他的综合应用。

例如:经过一系列的分析,最后定位到部分客户群体:他们在生命期初期的平均客单价
水平较高,并且在食品上的支出较高。可以在数据中进行追踪验证,寻找生命周期初期符合
此特征的老客户,观察后续的持续消费水平。如果发现很多符合这一特征的老客户,他们的
后续消费水平也较高,则可以根据这个特征在客户进入初期建立一个标签,例如“baby美食

110
家群”,对于符合这种标签的客户,在各种营销环节中给予适当关注,设置针对性的营销活
动。

又或者,对于数据计算出的高价值客户,可以根据R指标的数值定义出一些预警区间,
达到某些预警条件,可以触发一些自动化的营销动作,例如发放一张“购物有奖,百之分百
中奖”之类的抽奖券,以系统地维护高价值客户,减少流失。

企业还可以通过客户的消费行为数据,构建多种混合特征的标签,随着客户行为的持续记
录,不断累计客户的特征标签,再根据客户标签结合“RFM分析”维度采取对应的营销活动。

第 第

简简简简简简
图7-5 会员生命周期综合分析仪表盘 简

简简简简简简简简简简简简

7.2 技术实现:用Tableau技术实现7.1节的分析
Tableau引进了“字段级别表达式”函数,有了这种函数,数据指标的构建和提取就具
有了很大的灵活性。RFM分析在Tableau中的实现,主要依赖于提取恰当的计算字段。

下面说明整个分析仪表板的构建过程。本书的前部分已经详细描述过的一些操作方法,

111

更多免费电子书搜索「雅书」 https://yabook.org
这里不再详细阐述,这里只展示主要的操作步骤。

(1)连接数据。建立数据源连接“FRM分析数据.csv”,预览数据,可以看到其中存
储了『UseId』、『会员创建日期』和『流水号』,以及产品的不同级别品类编码信息(见
图7-6),将基于这些信息构建后续分析所需要的衍生字段。

图7-6 存储的信息

(2)计算每个会员的最后购买时间点。每个会员的数据中有多条消费记录,先抽取
每个会员的最后购买时间。在字段面板空白区域单击鼠标右键 ➤ 在弹出的菜单中选择创建
计算字段命令➤ 调出公式编辑器,输入名称“会员最后购买时间”,输入公式“{ FIXED
[UseId]:max([销售日期])}”,获得每个用户最后的购买时间字段『会员最后购买时间』,如
图7-7所示。
Tableau
商业分析 从新手到高手

图7-7 选择命令输入代码

(3)计算会员的购买点生命期。在数据面板上单击鼠标右键,在弹出的菜单中选择创
建计算字段命令 ➤ 弹出公式编辑器,将新字段命名为“购买点会员生命期(日)” ➤ 输入公
式“IIF (DATEDIFF(‘day’,[会员创建日期],[销售日期])>=0,DATEDIFF(‘day’,[会员创建日
期],[销售日期]),NULL)”,计算每个购买日期距离会员注册日期的天数。因为现实的数据总

112
会有一些“脏”数据,所以用IF语句对有问题日期进行处理:如果计算的值不大于0,将其
填充为空值“NULL”,如图7-8所示。

图7-8 输入购买点会员生命期(日)公式

(4)计算最后购买行为点生命周期。利用上面计算的字段『购买点会员生命期
(日)』计算最后购买点的生命周期。单击鼠标右键,在弹出的菜单中选择创建新字段命令
➤ 将公式编辑器命名为“最后购买点生命期(日)” ➤ 输入公式“ { FIXED [UseId]: MAX([
购买点会员生命期(日)])}”,如图7-9所示。

第 第

简简简简简简

图7-9 输入最后购买点生命期(日)公式 简
简简简简简简简简简简简简

(5)计算R指标(Rencentley)。单击鼠标右键,在弹出的菜单中选择创建新字段命令
➤ 在公式编辑器中将其命名“Renc” ➤ 输入公式:DATEDIFF(“day”,[会员最后购买时
间],#2014-08-01#),如图7-10所示。因为分析数据的截至日期为2014年8月1日,所以R以
这个日期为基准进行计算。

113

更多免费电子书搜索「雅书」 https://yabook.org
图7-10 输入最近购买时长公式

(6)创建最后购买点生命期的分段。为了观察最后购买行为的客户的生命周期分布情
况,需要一个最后购买点生命期字段的分箱字段,以统计不同生命期客户的数量。在创建的
『最后购买点客户生命期(日)』字段上单击鼠标右键 ➤ 创建 ➤ 数据桶 ➤ 在弹出窗口中
将“数据桶大小”文本框中的值改为30,以一个月划分数据,如图7-11所示。

图7-11 按习惯的一个月间隔划分数据

(7)构建近期客户生命期结构图。拖动新生成的『最后购买点生命期(日)(数据
桶)』字段到列功能区域 ➤ 拖动记录数到行功能区域 ➤ 拖动『销售日期』字段到筛选器面
板 ➤ 在弹出对话框中单击日期范围 ➤ 配置日期列表项的日期范围为7月份 ➤ 在智能显示面
板中选择水平条 ➤ 在“NULL”柱上单击鼠标右键,在弹出的菜单中选择排除命令,自动生
成筛选器排除“NULL”,如图7-12所示。完成的最近消费用户生命周期结构图,如图7-13
Tableau

所示。
商业分析 从新手到高手

(8)制作RFM_L综合观察分析图。拖动『UseId』字段到标记面板的详细信息项 ➤ 拖
动『销售金额』到行功能区域 ➤ 拖动『流水号』到列功能区域,双击鼠标,修改计算公式
为“COUNTD([流水号])” ➤ 拖动『Recn』字段到标记面板颜色项,双击修改计算公式为
“avg([Renc])”。

114
图7-12 操作过程

第 第

简简简简简简


图7-13 最近消费用户生命期结构图 简简简简简简简简简简简简

(9)编辑颜色图例。单击颜色标签 ➤ 选择编辑颜色 ➤ 弹出配置面板。在色板项目下


拉框中选择日出-日落发散项,勾选倒序 ➤ 单击高级按钮,勾选中心项,在文本框中填写
“90”,这样配置了渐变颜色中心在90天处,单击确定按钮完成配置,如图7-15所示。

115

更多免费电子书搜索「雅书」 https://yabook.org
图7-14 操作过程
Tableau
商业分析 从新手到高手

图7-15 编辑颜色图例

116
(10)增加客户生命期。拖动『最后购买点生命期(日)』到标记面板的大小标记
处 ➤ 修改字段AVG([最后购买点生命期(日)]) ➤ 进入左侧分析面板 ➤ 拖动含四分位点的中
值到图形区域,在动态出现的浮动菜单后将含四分位点的中值拖动到表项上(如图7-16所
示),增加四分位数值区域,调节颜色和大小等项目,改变图形以使其更适合观察数据。完
成的图形如图7-17所示。

图7-16 增加客户生命期

第 第

简简简简简简


简简简简简简简简简简简简

图7-17 完成的图形

117

更多免费电子书搜索「雅书」 https://yabook.org
第8章
你之蜜糖,我之砒霜:不同客户对价
格优惠的态度观察

Lisa:萧岚,你今天分享的标题太骇人听闻了吧,“蜜糖砒霜”这四个字一摆,有点清
宫戏的感觉,呵呵。

萧岚:现在不是流行“标题党”吗,形式很重要,先把眼球吸引了再说。

术术:唉,连我们的可视化“大拿”都守不住底线了。萧老师,我们怀念你的风骨。

萧岚:哈哈,我故意的,借此提醒一下大伙标题的重要性。咱做数据分析的人,从数据
准备到数据分析,再到数据展现,过程很长,但是老板们看不到前面那些步骤。为了让非专
业背景的同事看懂,给做出来的每一张图表都取好标题,标好刻度尺和关键备注是非常有必
要的。不过我真心痛恨朋友圈转发的那种“发生了xxx结果,竟然是没有做这件事”之类的
文章标题,总觉得“辣”眼睛。咱们做分析的,不用太花哨,把商业场景描述清楚就行了。

娜娜:前几次听了好多客户分析方面的内容,对我特别有启发,今天还可以沿着客户分
析的思路走得更远点吗?虽然我的R还用得不好,更搞不了什么数据挖掘,但我还是挺希望
把Tableau里面的客户分析功能都用起来。

萧岚:好吧,你们公司也太省钱了,要是能买点数据挖掘软件让你们玩玩,估计就不
用奔着R使劲了。不过,R和Python的应用已经是大势所趋了,不花钱还可以拥有强大的功
能,老板们怎么可能不喜欢。

术术:不一定吧!我们公司就用的不多,可能是因为能写漂亮算法的模型开发人员好
贵,还不一定留得住,改别人用代码写的算法又非常麻烦,所以我们公司还是老办法,用
SAS和IBM SPSS做数据挖掘,用Tableau做结果展现,再放到Tableau Server上分享。毕竟SAS
和IBM SPSS是老牌子了,有专门的数据挖掘算法管理,就像工厂管理自己的流水线一样,模
板化、流程化地去工程级运算也比较方便。当然啦,我也是听说,我这水平,还没去公司的
技术大牛那里摸过这些玩意。

萧岚:怕什么,去摸摸呗!学习就得有点厚脸皮,有啥不好意思的。你就说,我来看
看有没有可以在汇报时显得更漂亮的数据,都是同事,估计不会拒绝你的。哎,我可知道,
SAS和SPSS里跑出来的图形可都不算太好看。

8.1 分析思路:优惠券的使用情况分析
第4章产品促销分析时,我们已经提到过一句话:任何广告都抵不上降价一分钱。当
然,这句话里面的“一分钱”是一种类比,是指代简单而粗暴的营销方式——降价促销。这
句话虽然有一定道理,但将人性归纳得过于绝对了。

一般强烈主张这种方式的营销人员,多数是不相信什么广告、产品创新和客户深度研
究的,他们认为人性是贪图便宜的,所以降价、打折、折扣券之类是最好用的营销方式。当
然,也有一些营销者反对这种简单粗暴的方式,认为这不会产生什么实质性的持续价值,仅
仅是浪费钱而已,多数“好客户”不在乎这些蝇头小利,给这部分客户更好的服务、更好的
体验,建立更好的情感认同,就可以获得更高的附加值,实现客户满意、企业获利的双赢结
果。

第 第 你之蜜糖,我之砒霜:不同客户对价格优惠的态度观察
我们经常会看到不同企业,或者同一企业的不同营销人员之间的态度分歧。如果没有实

际的验证,两个阵营都很难说服对方。

很多企业一直处于争论阶段,难于做出实际的追踪数据来验证某种观点。原因在于,现
在企业的营销活动种类繁多,且从营销到购买整个链条很长,环节非常多,如没有良好的事
先设计,通常很难获得用来精确验证和研究的数据。所以,我们看到争论一直存在、行业内
不同种类的促销也一直存在。

下面分享的这个案例,重点不在可视化技术方面,而是讨论在有限的条件下,如何发挥
数据的最大价值。很多时候,没有充分的事前研究准备,并不代表什么都不能做。因地制宜
地利用现有数据,设计一些合理的分析验证逻辑,即使得不到非常精确的结论,但还是能做
一些探索性分析,得到比“瞎猜”要好很多的信息。

这个案例来源于Bizinsight分析过的一个企业案例,本章将利用其中消费者优惠券研究
和价格弹性研究的部分内容作示例。该企业的营销活动非常多,但仅有少量的大型营销有整
个活动路径以及结果记录,其他多数的营销行为都没有完整的记录。针对这些珍贵的、具有
完整环节数据记录的活动,我们建立了营销反馈模型。这个模型属于数据挖掘领域,在这里

119

更多免费电子书搜索「雅书」 https://yabook.org
不做过多涉及。

下面我们主要讨论,在没有完整数据记录的情况下,是如何突破常规的思考方式,从其
他方向提取辅助信息,对促销做一些整体上的效果分析,从而获得有价值的信息。我把分析
过程分享给大家,各位结合各自的工作场景,在分析逻辑上作一些参考,可能将来你们就能
在自己的分析中使用到。

仅仅两年期间,该企业针对不同产品做过不同形式的促销活动:发送短信息、店铺内促
销、新会员优惠券、特殊产品促销券、特殊日期折扣活动等,累计达到了2000多种,几乎
是,营销部门想到什么主意就用什么主意,而且几乎把市场上看到的营销策略都用了个遍。
由于没有投入足够的资源建立科学而完整营销追踪机制,所以无法衡量每种营销的效果,更
没有充分的数据来支持进一步的营销决策,比如削减某些促销、将预算转移到最有效的营
销上来。整个营销管理成了一个死循环:因为没有信息→不知道各种促销的价值→不知道价
值,没法进行管理,只能维持大量的、混乱的促销。既然当前缺乏数据,无法对每个促销活
动进行非常详细地研究和评估,那就只能更换一种思路来研究。

幸运的是,虽然没有建立全部环节的促销信息追踪,但存在一些局部的信息。具体来
说,可以从历史数据中追踪到用户接触到的绝大多数促销活动,这让我们可以计算一段时期
内每个用户可用的促销活动数。同时,每一单流水,除了记录销售记录,还记录了是正常销
售还是使用了促销券或折扣。结合两方面的数据,我们就可以统计到一段时期每个用户可用
的促销数量,还有他购买产品所使用促销的数量。

有了这些数据,至少我可以观察商家在一段时间里所发放的各种名目的优惠券,究竟哪
些券在购买过程中被客户使用了,哪些券还原封不动。各种优惠券被消费者接受的程度通常
存在差异。我们先绘制三个月内会员接触优惠券的数量和使用优惠券的数量的散点图。横轴
为用户获得的优惠券数量,纵轴为使用的优惠券数量,如图8-1所示。

客户使用优惠券的行为受到许多因素的制约:最近需不需要这类商品、最近有没有时间
购物、购买时钱包里的银子是不是捉襟见肘等。客户数量众多,个体差异非常大。然而,为
了达到分析优惠券有效性,我们只好假设客户是一群“平均人”,各种限制因素都不存在,
优惠券的使用与否直接与券的卖点和优惠力度相关。
Tableau

使用散点图来对比客户所获得优惠券与所使用的优惠券的数量时,理想的图形应该是一
商业分析 从新手到高手

条45°角的直线,获券与用券正相关,且得一张用一张。当然,这样理想的营销只是一厢情
愿。

图8-1代表了大多数时候优惠券促销的真实情形:左下角密集,其他区域分散。请注意
横轴与纵轴的刻度比例尺不相同。图中每个点代表一位客户。左下角的点密集,表示大多数
客户获得了100张优惠券使用了不足20张,即发五张用一张。图中还有许多稀疏散开的点,
只代表了不同客户对优惠券促销的反应不同。

120
图8-1 用户获券数及用券数散点图

发五张用一张,这个效果是好还是不好?这不好判断。有的企业发优惠券,是真的期望

第 第 你之蜜糖,我之砒霜:不同客户对价格优惠的态度观察
用户都使用;有的企业则期望特定比率的用户使用。图8-1的散点图中那些分布于上下左右

不同位置的点,至少证明了一件事:人群存在差异,“优惠券”营销值得深入探究。

增加一个『用券比率』字段,然后按10%对字段进行分割,绘制该字段的直方图,如图
8-2所示。

我们看到,前三个柱明显比其他柱体高,说明使用了所获得优惠券30%以内的用户占绝
大多数。

看到了以上信息,我们需要进一步了解这种用券比率的差异,是随机出现的,还是受
到某些因素的影响,比如地域的差异、产品差异等。这里先观察一下不同区域的优惠券使用
比,在散点图中增加不同区域指标来观察。

增加颜色来区分不同区域数据,如图8-3所示。看到不同地域在图形中分布确实不同,
但因为点互相交叉覆盖,所以无法清晰地看出每个地域的比率。

121

更多免费电子书搜索「雅书」 https://yabook.org
图8-2 用券比率直方图
Tableau
商业分析 从新手到高手

图8-3 不同渠道获券数与用券数散点图

122
为每个地域都添加一条趋势线(如图8-4所示),这样可以地观察每个区域的总体情况。

从图8-4可以看到,不同区域的用券比率确实不同。最上面一条线的销售区域是Web,
可以看到,在网络渠道中优惠券的使用比率最高,这说明在互联网销售中,企业的付出的说
明线上渠道设计优惠券促销时,要把用券的基准值提高,做更高的营销成本预算。或者换种
方式,把线上渠道的捆绑销售做得更好,用购物篮组合提升整体毛利率,降低优惠券高使用
率带来的毛利损失。观察Web之外的其他区域,它们之间的差异虽然没有和Web渠道那么
大,但不同地域的用券率也有不同。

第 第 你之蜜糖,我之砒霜:不同客户对价格优惠的态度观察

图8-4 为每个区域都添加一个趋势线

了解到了上面信息后,我们希望进一步追踪不同产品优惠券使用情况,例如不同折扣级
下客户的反应。但现实是,折扣信息只标注到了订单,也无法精确追溯到订单中的每个产品
具体折扣情况。所以,我们退而求其次,从更宏观的“不同品类在不同价位变化下的销售变
化”来进行研究。

观察产品在不同价格水平下,相同店铺的日均销量变动,从另外一个数据维度来观察促
销对商品销售的影响。

123

更多免费电子书搜索「雅书」 https://yabook.org
虽然无法直接观测到所有个体会员使用不同产品优惠券的情况,但是可以计算出所有客
户在不同价格、不同商品上使用优惠券的总体情况。不同促销的时间长度不同,我们通过提
取相同店铺的日均销量,尽量平抑不同店铺和不同销售时长的影响。通过这种方式,可以从
销售数据中计算出“商品在促销价和正常价格两种情况下日均销售量的变化”,进而可以得
到各个品类的产品在不同价位上的销量变化。这类分析反映了客户对价格的敏感程度,因此
这类分析通常也叫做“价格弹性分析”。

为了获得比较稳健的推断结果,需要较多观察值,我们把分析粒度变小,小到产品小
类,关注产品小类的价格与销量情况。这样获得的汇总数据,可以研究各个品类在不同价格
的促销效果。

首先,制作多档价位下商品销量基于正常价格平均水平变化的箱图数据,如图8-5所
示,观察数据的总体分布和变化模式。横轴的折扣水平从低到高,最右面代表降价最多的数
据,不同颜色点代表不同的小类商品;纵轴代表日均销量相对正常价格平均销售水平的变化
率。

箱图并没显示出明显升高的线性趋势,说明并没有一个所有客户都趋同的“降价越多,
买得越多”的通用规则。进一步分析发现,不同颜色的点的范围差很大,说明不同类别的商
品销量变化受到折扣的影响不尽相同。
Tableau
商业分析 从新手到高手

图8-5 商品销量基于正常价格平均水平变化的箱图数据

按照商品类别继续绘制数据条形图,进一步观察不同品类在不同折扣情况下的销量变化
情况(图8-6)。由于分析不是基于预先设计好的数据,而是基于事后汇总的销售数据,所

124
以观察到的变化模式出现偶然性异常的概率会增加,所以我们过滤掉观测值较少的数据,只
保留高于一定基数的销售数据。这里排除了每个价格带中购买次数小于100的商品品类 。另
外,产品在一折低价销售并非常态,很多产品都没有这种价格的销售数据,这类数据对应的
现实场景可能都比较特殊——如搭配的赠品,这种数据也都过滤掉,然后再观察结果。

从图8-6可以看出,洗衣用品在接近半价时,最高销量比平时增加了接近16.7倍。婴儿
纸质用品,勉强符合“降价越多,销量增加越多”的趋势。但在牛奶粉上,客户对过低的折
扣并不敏感,7折左右时销售效果最好,但价格继续降低时销售并没有获得显著的上升。有
的产品,在折扣太低的区域甚至为负增长。

综合看来,消费者有自己的价值判断,并非产品“越便宜越买账”,一些产品莫名奇妙
的超低价可能会引起消费者的警惕。

第 第 你之蜜糖,我之砒霜:不同客户对价格优惠的态度观察

图8-6 不同品类在不同折扣情况下的销量变化情况

125

更多免费电子书搜索「雅书」 https://yabook.org
价格和销量的多种变化提醒我们,价格促销对销量影响真的很难一概而论,虽然不是基
于严格的试验设计做的专项研究,但变化多端的模型,确实很难让我们相信“客户对价格促
销具有趋同的反应”。

基于上面的分析结果,我们否定了“多数消费者对价格变化具有趋同”结论。我们建议
企业建立专门的营销效果追踪数据库,对每次促销活动的时间、地点和场景,以及相关的因
素都做详细的记载,这样可以构建更客观、完备的分析,甚至可以建立营销反馈模型,根据
模型的评分信息构建基于不同客户的、针对性的、更有效率的营销方式。

8.2 技术实现:用Tableau技术实现8.1节的分析
(1)新建工作表,连接数据“促销分析”,修改卡号字段『cardnum』为字符串,如
图8-7所示。(Tableau将数字、数据直接识别为数值。很多编码字段,例如身份证、客户ID
等类型的数据,都用户需要手动将其修改为字符串类型)
Tableau
商业分析 从新手到高手

图8-7 修改卡号字段『cardnum』为字符串

(2)制作获券用券散点图。新建工作表,命名为“获券用券情况”,拖动『总计(获
券数)』和『总计(用券数)』分别到行、列功能区,单击“分析”下拉菜单栏,取消聚合
度量,拖动字段『cardnum』到标记选项板的详细信息项,如图8-8所示。

(3)绘制用券比直方图。在数据面板空白处单击鼠标右键 ,在弹出的菜单中选择创建
计算字段命令,输入公式“[用券数]/[获券数]”,修改名称为“用券比”,单击确定按钮建

126
立新字段。双击新建字段,自动生成条形图,在智能显示菜单中选择直方图,获得直方图,
如图8-9所示。

图8-8 获券、用券散点图

第 第 你之蜜糖,我之砒霜:不同客户对价格优惠的态度观察

图8-9 用券比直方图

127

更多免费电子书搜索「雅书」 https://yabook.org
(4)右击数据面板,自动生成『用券比率(数据桶)』字段,在字段上单击鼠标右
键,在弹出的菜单中选择编辑命令,在弹出窗口设置“数据桶大小”为0.1(如图8-10所
示),最终获得按0.1分割的直方图。

图8-10 选择“编辑”命令

(5)建立产品价格弹性研究图形。新建数据源,选择Micorsoft Excel,定位到数据文
件存储位置,连接数据文件“价格弹性.xlsx”,如图8-11所示。
Tableau
商业分析 从新手到高手

图8-11 连接数据文件

(6)建立箱形图。新建工作表,拖动『价格变化等级』字段到列功能区,双击『销量

128
变化比%』字段,自动生成数据表,如图8-12所示。

图8-12 生成数据表

(7)拖动字段『产品小类』到标记面板颜色项,在右上角智能显示菜单中选择箱图,
获得图形,如图8-13所示。

第 第 你之蜜糖,我之砒霜:不同客户对价格优惠的态度观察

图8-13 选择箱图,获得形图

129

更多免费电子书搜索「雅书」 https://yabook.org
(8)拖动产品小类到标记面板的颜色项,获得最终区分颜色的箱形图,如图8-14所示。

图8-14 区分颜色的箱形图

(9)建立不同价格等级的产品销量变化条形图。新建工作表,将其命名为“不同小类
销售变化条形图”。拖动『产品小类』到列功能区域,『价格变化等级』到行功能区,『销
量变化比%』到列功能取,拖动『产品小类』到标记面板颜色项。在“一折以下”值上单击
鼠标右键,在弹出的菜单中选择排除命令,如图8-15所示。
Tableau
商业分析 从新手到高手

图8-15 拖动各小类到列功能区域

(10)调整显示格式。在侧边栏数据面板中右击『价格变化等级』,在弹出的菜单中选
择默认属性 ➤ 排序命令,在排序对话框中选择手动,在下面设置折扣顺序从低到高,如图

130
8-16所示。

图8-16 让图形按折扣等级顺序显示

(11)在列功能区单击『产品小类』字段右侧的下拉箭头,单击排序,在弹出的对话
框中选择降序,“排序依据”选择字段项,设置字段为“销量变化比%”,聚合设为“总
计”,如图8-17所示,获得分类促销效果图形。

第 第 你之蜜糖,我之砒霜:不同客户对价格优惠的态度观察

图8-17 设置分类促销效果图形

131

更多免费电子书搜索「雅书」 https://yabook.org
8.3 拓展技术专题9:价格弹性
“价格弹性”概念来源于经济学领域,可分为需求价格弹性、供给的价格弹性、交叉价
格弹性和预期价格弹性等多种类型。

价格弹性表明供求对价格变动的依存关系,反映价格变动时相应的需求量相应变动的灵
敏度,又称“供需价格弹性”。价格弹性分析,是就产品需求量对价格变动的反应程度进行
分析、计算、预测和决策的过程。

企业通常需要进行需求价格弹性分析。需求价格弹性,是需求变动率与引起其变动的价
格变动率的比率,反映商品价格与市场需求量的关系,反映价格升降时市场需求量的增减程
度,通常用需求量变动的百分数与价格变动的百分数的比率来表示。

商品本身的价格、消费者的收入、替代品价格,以及消费者的爱好等因素,都会影响对
商品消费的需求。价格弹性是指这些因素保持不变的前提下,该商品本身价格的变动引起的
需求量的变动。当然,完全符合假设条件的情形不可能存在,所以现实中的研究大都要求保
持一个近似的假设即可。目的是,观察到需求的变化确实主要是因价格的变化而引起的,而
不是因为同期其他因素的变化引起的。

一般情况下,商品的价格弹性变化可以反映消费者对产品的需求强度。在需求有弹性的
情况下,降价会引相应起购买量的增加;反之,价格上升则会导致购买的减少,如图8-18
所示。在高亮这句改为“在存在刚性需求的情况下,需求量变动幅度与价格变动幅度相同。
即价格每提高1%,需求量相应地降低1%。反之则反是。无论任何情况都被需要,并且无可
替代的必需品,涨价基本不会影响到购买量。如果预期物资匮乏或者产品容易保存,则降价
会引起消费者的囤积。(极端地提价到了消费者无力承担的特殊情况下所引起的消费减少,
已经不在普通研究范畴之内)
Tableau
商业分析 从新手到高手

图8-18 商品的价格弹性变化

132
第三部分

营销主题分析

斗转星移,转眼间沙龙已经持续了小两年了,大家的工作状态都有了一些变化,但因数
据而聚集的圈子难得地维持了下来。

每个人的专业水准都有了提升,但都发现了一个趋势,大家的岗位都不约而同地向营销
倾斜了。可能是“用数据说话”的观念越来越流行,所以无论哪个老板,发现企业内部有这
些懂数据分析人,都希望推到营销岗位去。因为毕竟营销做得好,才会真正带来利润。

相应的,大家的话题越来越向营销靠近。

本部分主要探索数据在营销场景下的应用,包括以下几个主题:
yy 媒体的营销价值评估;
yy 不同营销策略的对比测试;
yy 购物篮分析。
本部分数据集说明见下表。

主题 数据文件 字 段 说 明
Channel 电视频道
Month 收视率月份
媒体的营销 Target 统计收视率群体的人口特征
北京收视数据
价值评估 Time 收视率的对应时间
Rate 收视率
开机率 电视开机率,用来衡量不同时间段的开机率

更多免费电子书搜索「雅书」 https://yabook.org
续表
主题 数据文件 字 段 说 明
Store_ID 商店编号
Gross_Rev 周销售额
披萨店销售数据 Group_label 测试组标志
不同营销策
Test_label 测试点标志
略的对比测
Week_Ending 店铺周销售额统计的周末日期

Group_label 测试组标志,使用测试店铺来标记
测试分组信息表 Stroe_ID 商店编号
Test_label 是否测试店铺,二值字段,1代表测试店
购物篮.mdb: 会员ID 会员唯一标识
购物篮分析 表sample 品牌 会员购买的品牌
Small_sample表结构相同,会员数量随机减少一半
Tableau
商业分析 从新手到高手

134
第9章
抛弃糊涂账:如何衡量媒体的营销价值

Lisa:各位各位,我刚调到营销部门,虽然原来跟着你们混听混看,做了一些小打小闹
的分析,但没有接触到很大量级的数据,也很少有真实的分析问题让我解决。现在领导把我
调到了营销部门,第一个任务就让我评估合作媒体的价值。伙伴们,现在需要大力支持,得
帮我打响第一炮,不能让我丢了我们小组的人。

大威:这么严重啊,什么情况,说来听听。

Lisa:公司决定新推出的一款产品,寻找了一些合作的媒体,之后会先少量投放一些广
告做一些效果测试。不过合作之前,也获得了相关媒体的一些数据资料,领导想通过这些资
料,让我先辅助衡量一下媒体的价值,也为未来的投放计划提供一些参考信息。

这次对传统的电视媒体和网络平台,都进行了一些选择。传统媒体获得的是每5分钟收
视率的情况,网络媒体获得了一些客户的投放收获情况。由于商业原则,对方隐藏了投放产
品,但是保留了广告风格的字段。

鹏辉:我对媒体评估也有兴趣,我来帮你做吧。

大威:授之以鱼,不如授人以渔。鹏辉,你辅助她一下,主要还是让她自己做,要不她
对数据分析的感觉总是隔一层窗户纸,正好有这个机会让她真正锻炼。不过老规矩,大家出
力,然后将经验在小组中共享!

更多免费电子书搜索「雅书」 https://yabook.org
9.1 分析思路:媒体的测量和筛选
传统电视媒体的收视率是基于机顶盒设备抽样采集的。不同电视媒体能够提供的收视数
据情况基本相同,这里以北京地区电视媒体为例。

我们分步骤观察电视媒体的收视率情况,根据产品受众和媒体受众的特点,选出性价比
高的媒体进行投放。

开机率是按户统计的设备(电视机)打开的比率,是收视率的基础。我们首先观察晚间
各个时段的开机率(见图9-1),可以看到开机率高峰期在19~21点,23点后开机率开始衰
退。如果需要大规模并且快速地传播信息,19~21点这个时段的传播效率较高,但人群规模
最大的时段,覆盖的人群特征会比较混合,这也是需要考虑的一个因素。

图9-1 北京地区电视晚间时段开机率

继续研究北京地区收视率市场的不同时间段的频道集中度(见图9-2)。发现晚间时段
大多数的收视率集中在排名前几位的频道,尤其以19~21点的黄金时段,排名靠前的频道收
Tableau

视率占比非常高。如果传播目标不是针对特殊人群,而是要全方位、全人群快速传播信息,
选择几个主流的频道的黄金时段投放广告是最有效率的。
商业分析 从新手到高手

本次公司新产品主要面向的是青年人群。鉴于目前的城市生活特征和人口寿命的变化,
我们定义的青年人群为20~45岁人群,和传统的概念可能不太一样。

主流频道,对全部人群的覆盖率高,信息传播效率快。我们首先考察主流媒体在目标群
体的历史覆盖数据,如果主流频道的人群中的多数为目标客群,当然是第一选择。收视数据
中有“年龄段”属性,我们重新定义两个按年龄分组的字段,将“20~45”年龄段定义成一
个“目标年龄群”,其余年龄归类为“其他年龄”(见图9-3)。

136
图9-2 不同时段北京地区收视率频道集中度情况

图9-3 不同媒体的目标年龄群和其他年龄的收视率

第 第

好消息是,排名靠前的主流频道,目标客群的覆盖率很高;坏消息是,覆盖的非目标

抛弃糊涂账:如何衡量媒体的营销价值
客群,数量更高(这部分不是产品目标受众,多数投放成本为无效成本)。

如果觉得信息传达到很多的目标客群,同时也覆盖到更多的人群也无所谓,那就错
了。媒体不是慈善机构,非目标群体覆盖并不是免费的,向每一个非目标客户传播信息都是
要买单的,但这部分支出对我们来说都是无效支出。

有的人认为,这些人可能是潜在客户的孩子、父母、至亲、朋友等,他们可能会影响
到目标客户的购买决策。但我们认为,那只是传统营销学里面安慰花冤枉钱的客户的一个美
丽的借口罢了,早年的市场环境下可能还有那么一点道理,但是现在,还有什么人、什么产
品的购买是需要家庭、朋友群体决策呢?恐怕只有房子、车子、生孩子方面的开销了!但我
们不是做这种大生意的。我们的目标客群也不是任何决策都要询问父母的“妈宝”人群,所

137

更多免费电子书搜索「雅书」 https://yabook.org
以,我们要尽量地少花冤枉钱,虽然不可能找到一个完全针对目标客群的传播渠道,但我们
还是可以根据数据对现有的媒体作一些合理地筛选,选出相对来说性价比更高的传播渠道。

一个重要原则:目标群体的比重越高越好。所以,我们计算出每个频道收视率覆盖的目
标年龄群和其他年龄的比率。我们绘制了原始结构图来展示收视率规模,但由于柱子的长度
不一致,有些短柱结构无法看清,所以同时绘制缩放为百分比结构的图形,频道按照人群规
模做了排序(见图9-4),结合这两种图形来查看频道的人群覆盖规模和结构。

图9-4 频道人群覆盖规模和结构

我们看到,在人群结构上,标注箭头的频道要优于其他频道,尤其是CCTV6(电影频
道),该频道总体收视规模相对不错,目标群体比重更大。

上图,只能知道频道受众群体的主要情况。但不同时间的观众结构仍然有差异,我们需
Tableau

要更细分时段上的观察。下面按小时来观察各个时段不同频道的目标客群覆盖情况。虽然可
以按不同时段分别绘图(见图9-5),一个个地分析和搜寻需要的时段和频道的组合,但这
商业分析 从新手到高手

样的方法比较混乱和低效率,所以,我们构建了一个更加容易探查的指标——目标客群倾向
指数,来快速地筛选。

138
图9-5 频道目标受众收视率结构图

指数是一种比较常见的指标,一般是某种数值指标的个体水平和总体的平均水平比较,
得到大于或者小于1的数值。在计算出“目标客群倾向指数”后,可以通过指数直接观察个
体频道在目标客群上相对于总体的平均水平。

我们以产品目标客群在各时段、各频道的平均水平为基准,计算“各频道不同时段目标
客群收视水平”相对于“总体市场目标客群平均收视水平”的大小,获得“目标客群倾向指
数”,另外把“目标群收视率”作为另外一个衡量指标,绘制指数指标和绝对收视指标的散
点图(见图9-6),综合衡量各个频道不同时段的坐标位置,可以获得一套动态评估和筛选
目标频道不同时间段传播价值的系统。

第 第
使用上,可以通过鼠标圈选出符合我们预期的点,将所选中的点重新定义为一个集合, 第

导出集合,以获得比较适合的投放频道和时段的列表。也可以将集合作为区分字段,直接标

抛弃糊涂账:如何衡量媒体的营销价值
识出我们选择的频道。

可以看到,如果圈出第一象限的点,可以直接过滤出备选的频道和时段的交叉组合名
单,另外,在辅助数据观察表上,直接看到联动高亮的数据,直观地看到什么频道、什么时
段符合条件(见图9-7),以及平均收视率水平如何,这样可以辅助我们作投放决策。

139

更多免费电子书搜索「雅书」 https://yabook.org
图9-6 目标客群倾向指数散点图
Tableau
商业分析 从新手到高手

图9-7 按选择点高亮显示的频道和时段

新媒体的评估指标,很多借鉴了传统媒体的评价体系,如视频网站的PV、UV等就是评
估节目观看人次和观看人数(去重)。新媒体指标的优势在于,可以从实际的访问行为日志
中更详细地追踪观众的行为,数据反映的行为细节比传统媒体的细节丰富。比如,可以追踪
到更详细的观看时间,理论上还可以追踪到客户在不同节目间的流动和交叉,但数据处理的

140
复杂度要更高。

目前,多数的新媒体提供给客户的评价指标,主要还是参考了传统媒体的体系。所以,
上面的评估逻辑其实完全可以套用到新媒体上,另外,如果新媒体获得了更详细的客群以及
观看行为划分,那么对投放单元的评估也可以做到更详细的级别。

9.2 技术实现:用Tableau技术实现9.1节的分析
(1)新建文件,数据连接到文本文件格式的“北京收视数据”。在预览窗口看到文件
中存储了时间、频道、不同目标人群标志、收视率相关指标四种信息。我们只研究不同年龄
段的收视率情况,所以过滤掉其他人口属性。在数据连接界面右上角的筛选器区域单击编辑
➤ 添加 ➤ 选择『Target(组)』字段,在对话框中只保留年龄项,如图9-8所示。

第 第

抛弃糊涂账:如何衡量媒体的营销价值
图9-8 选择『Target(组)』字段并保留年龄项

(2)新建工作表 ➤ 右击『target』字段 ➤ 在弹出的菜单中选择分组命令,将目标群


字段划分为“目标年龄群”(20~44岁)和“其他年龄”两个组,如图9-9所示。

141

更多免费电子书搜索「雅书」 https://yabook.org
图9-9 划分两个组

(3)绘制开机率图形。将『时间段』字段拖动到列功能区域 ➤ 将『开机率』拖动到行
功能区域 ➤ 在界面的智能显示面板中选择面积图。右击『小时(时间段)』,在弹出的菜
单中修改属性为“离散”,然后单击列功能区字段左侧的加号按钮,获得每小时详细的开机
率,如图9-10所示。
Tableau
商业分析 从新手到高手

图9-10 修改属性为“离散”

142
(4)绘制收视率集中度图形,如图9-11所示。拖动『channel』字段到列功能区域
➤ 拖动『rate』到行功能区域 ➤ 在标记面板标记下拉框中选择线。在列功能区域『总计
(rate)』字段单击下拉按钮,选择添加表计算 ➤ 计算类型选择汇总 ➤ 拖动『时间段』字
段到标记面板颜色项。

图9-11 绘制收视率集中度图形

(5)排除图例项中不合理时间段值,如图9-12所示。在列功能区『channel』字段下
拉菜单中选择排序 ➤ 在弹出“排序”对话框中选择降序,“排序依据”选择字段,在下拉
框选择“rate”,获得收视率集中度(如图9-13所示)。

第 第

抛弃糊涂账:如何衡量媒体的营销价值

图9-12 按“rate”降序排列

(6)绘制不同时段目标群体的收视率结构,如图9-14所示。拖动『channel』字段到
列功能区域 ➤ 拖动『rate』字段到行功能区 ➤ 拖动『时间段』到行功能区。

143

更多免费电子书搜索「雅书」 https://yabook.org
图9-13 收视率集中度
Tableau
商业分析 从新手到高手

图9-14 不同时段目标群体收视率结构

(7)拖动字段『target(组)』到标记面板颜色标记,按住Crtl键拖动行功能区的『总
计(rate)』到行功能区,复制一个字段 ➤ 在复制字段下拉菜单中选择添加表计算 ➤ “计
算类型”选择“总额百分比” ➤ “计算依据”项设为区(向下),如图9-15所示。

144
图9-15 “计算依据”项设为“区(向下)”

(8)创建所需计算字段,如图9-16所示。在数据面板中单击鼠标右键 ➤ 在弹出的
菜单中选择创建计算字段命令 ➤ 弹出公式界面输入公式“{ FIXED [时段(小时)],[channel]:
AVG([rate])}”,修改名称为“时段频道平均收视率”。用同样方式创建另外两个字段:
①『目标群时段频道平均收视率』,公式为“{ FIXED [时段(小时)],[channel],[Target (组)]:
AVG([rate])}”;②『目标群倾向指数』,公式为“[目标群时段频道平均收视率]/[时段频道平
均收视率]”。

第 第

抛弃糊涂账:如何衡量媒体的营销价值

图9-16 创建所需计算字段

145

更多免费电子书搜索「雅书」 https://yabook.org
(9)创建综合观察散点图,如图9-17所示。拖动『目标群倾向指数』字段到列功能区
➤ 拖动『时段频道平均收视率』字段到行功能区 ➤ 拖动『channel』字段到标记面板详细信
息标记 ➤ 拖动『小时』字段到颜色标记 ➤ 在颜色标记板单击“NULL”,然后单击排除 ➤
拖动『target(组)』字段到筛选器面板 ➤ 在弹出的界面中勾选“目标年龄群”复选框。

图9-17 创建综合观察散点图

(10)拖动『rate』字段到大小标记 ➤ 在下拉框中选择方形 ➤ 从左侧进入分析面板 ➤


拖动含四分位的中值到图形区域表项,获得带四分位间隔的图形,如图9-18所示。
Tableau

(11)建立备选集合,如图9-19所示。鼠标圈选右面象限中『目标群倾向指数』和
『收视率』都比较高的点 ➤ 单击鼠标右键,在弹出的菜单中选择创建集命令 ➤ 在弹出菜单
商业分析 从新手到高手

中将集的名称改为“筛选的频道时段”,在字段下方集区域会看到新建立的集。

146
图9-18 获得带四分位间隔的图形

第 第

抛弃糊涂账:如何衡量媒体的营销价值

图9-19 建立备选集合

147

更多免费电子书搜索「雅书」 https://yabook.org
(12)建立辅助观察图,如图9-20所示。新建工作表,拖动『时段』和『rate』字段到
列功能区域,拖动『频道』字段到行功能区域,拖动新建立的集合到颜色标记,可以突出观
察所选择的频道和时段的收视率。

图9-20 建立辅助观察图
Tableau
商业分析 从新手到高手

148
第10章
不猜测,不盲从:A/B测试分析

大威:号外!号外!我的高徒彻底出徒了。居然自己接分析的活儿了。大家说,是让他
请吃饭,还是分享成果。

众人:分享!分享!

Lisa:吃饭!

大威:哈哈哈,看出谁是吃货了吧!

Lisa:你们笨,吃完饭后,还是可以让他分享呀,他做了得意的分析,不给大家讲讲,
你们以为他心里不痒痒吗。

娜娜:嗯,还是Lisa狡猾。我们太厚道了。

术术:就你是只小狐狸。好了,看在我挣钱了的份上,就在这给大家点了牛排,我们边
吃边分享,这都满意了吧。

娜娜:等等,还没知道来龙去脉呢,术术,你自己单干了?

术术:没有。我有个表哥,在一个连锁披萨店做店长,刚好他们公司最近搞一些新营销
方法测试,让我帮他分析。结果他们大区经理看了很满意,给我补了一点劳务费,还说以后
有类似的活儿,还找我做“专业”的分析。所以,我这是要回馈组织,真心感谢大家带我共
同进步,不断积累数据能力……

先来看看我的方法吧,这次主要用的是A/B测试分析方法。

更多免费电子书搜索「雅书」 https://yabook.org
A/B测试并非什么创新技术,属于分组试验设计的简化版本。基本逻辑是:控制潜在的
其他影响因素,在其他影响因素相同或者相近的情况下,只研究所关心的两种指标之间的关
系。例如,要观察同一产品的不同内容版本广告对销售的影响,理想情况下,可以选择两组
不同的试验人群,保证两个群体的人口特征基本相同,对两个群体投放不同的广告,观察一
段时间后产品购买量是否有显著的差异,以判断广告效果是否有差异,如图10-1所示。

㗚։ 1 ᒵ઀ A 䬶୤䠅 1
ᙱ։⢯ᖷ᧛䘇 䬶䠅ᱥੜᴿᱴ㪍ᐤᔸ

㗚։ 2 ᒵ઀ B 䬶୤䠅 2

图10-1 A/B测试示意图

早在20世纪70年代,美国营销界的广告泰斗就已经在现实的营销场景中使用了这种方
法。霍普金斯在《科学的广告》以及大卫奥格威在自己的著作《一个广告人的自白》中都曾
经提及类似的测试方法。他们仅仅更改(文案或平面广告)里面的一句话或者某一个视觉元
素,选择不同的市场上进行投放,然后追踪投放区一段时期内的销售情况,来测试检查哪个
版本的效果更好。

A/B测试在新的营销环境下仍然起到很好的效果。不同页面设计的订单率测试、不同页
面的阅读时间测试,或者不同APP设计的用户留存率研究等,都可以采用A/B测试来研究。

由于各种数据采集技术的进步,现在的测试规模和影响因素的控制得更进一步精确,
对很多企业来说,只要有决心,并且做好测试相关环节配合和支持,几乎没有不可测试的内
容。(“不断测试,不断改进”的总体运营思想,也是近几年兴起的“精益分析”“增长黑
客”的核心思想)

这个连锁披萨店的新行销方式效果分析中,我就采用了A/B测试,下面我们看看分析场
景以及Tableau的分析实现。

10.1 分析思路:新套装促销的 A/B测试


Tableau

该连锁披萨店一直采取传统的企业网站广告促销方式,随着分店的扩张和竞争的加剧,
商业分析 从新手到高手

企业决定采用一些其他的营销方式。

直接大范围地废弃老传统而采取全新的营销方式,这并非科学合理的方法,该企业一贯
的作风也不是冒进风格,而是依靠稳扎稳打逐步发展。所以他们选择了比较符合自己的做事
风格,采用逐步发展和测试的方式来逐步更新和进化自己的营销方法。

他们选择了两种不同的套餐广告推荐方式:一种是保持原来企业网站动态推荐的方式;

150
另外一种,选择了一个其他的电子通路投放套餐优惠的链接广告。参与了电子通路投放广告
的门店有117家,同时为每个店选择了几个情况相近的门店作为对比参照,每个测试店和参
照店分为一组,一共准备了9个组进行对比测试,整个测试期持续了23周。

我对不同测试组的销售数据进行了综合分析,以衡量不同渠道的广告效果。

经过多张表连接并计算后,获得分析需要的数据。我们先来了解一下数据结构(见图
10-2)。

店铺销售数据在每个周末汇总,所以,对应到每个周末日期的一条记录代表了该店铺一
周的销售额。
yy 『测试组』字段用测试店的编号来标记不同的组,每一组内包含采用新方法的店和用
来对比的传统方式促销的店铺。
yy 『测试时期标志』字段存储0或1,0代表非测试时间,1代表测试时间段。
yy 『测试店标志』字段存储了0或1,0代表非测试店铺,1代表测试店铺。
yy 『客单价』字段为周平均每单销售额。
yy 『周销售额』字段为店铺一周总销售额。


第 不不不不不不不不

图10-2 店铺销售数据结构

首先观察测试店铺在测试期前后的销量情况。橙色为测试期间店铺的『周平均销售
额』,蓝色为测试之前的一段时期店铺的『周平均销售额』。可以看到,所有测试店铺测试 不
不不不不



期间的销售额度都比测试前有所提升。但我们还不能完全确定是由于采用新营销方法带来的
销售提升,还有可能是“刚好”测试前后期间整体市场状况的改变带来了销售情况的变化。

151

更多免费电子书搜索「雅书」 https://yabook.org
我们观察测试店铺之外的所有店铺的数据(见图10-3),看一下未参与新营销测试的
店铺测试前后期间的销售情况。观察所有对比店铺(没有采用新营销方法的店铺)在测试前
后时期『周平均销售额』的柱图,图10-3中一共九组数据,请读者在脑海中默想自己用手
指划过这九组方形点,会发现橙色点与蓝色点分别被连接后,曲线形态基本一致:尽管测试
期的周平均销售额(橙色方形)总体比原周平均销售额高(蓝色方形),但没有哪个店铺出
现异常高或异常低。类似的图表形态是许多店铺推行营销活动的常态,可以推断说营销前后
的总体市场环境没有什么重大变化,诸如“竞争对手在隔壁开店”“测试期前后赶上五一、
十一”之类的。这样的重大市场环境变化,在图表形态上,往往会通过特别高或特别低的点
来展现销售额的较大波动。假如存在异常值,我们还要进一步做针对性分析。
Tableau
商业分析 从新手到高手

图10-3 店铺测试前后销售变化

因为没有参与新营销测试的店数量很多,我们绘制这些店的平均销售额指标盒须图,
以观察这些店更详细的周平均销售额的分布情况。通过观察图10-3左下角的两个橙色与蓝
色柱子的高度,似乎应该说,将所有测试店的销售额全部汇总后求周平均,看不出来新营销
测试有什么大的效果。这对于营销部门来说真不是什么好事情。到底是新营销手段完全不
行呢,还是有一定的适用条件,并不是所有店铺都不行。接下来观察图10-3右下角的盒须

152
图,查看蓝色与橙色两组盒须图的平均值、最大值与最小值,可以发现参与测试的店铺在测
试期的销售额变动区间更大,说明新营销测试对有些店而言,带来了显著提升。对图10-3
的初步判断告诉我们,还得往下做进一步分析。

为了更好地衡量新营销测试的效果,通常我们会选择综合状况较为接近的店铺(店铺面
积、品类丰富程度、销售平稳程度等)进行对比,以减少外部因素的影响。假设外部因素的
影响被降到了最低,时间序列图能够更好地帮助我们了解营销前和营销后的销售表现。

我们绘制各测试组销售数据的时间序列图(见图10-4),图中第一行(标记为“Null”
的这一行)所绘制的是多家未参加营销测试店铺的销售数据。数据源中先截取了长达两年的
时间段,这对于观察店铺的销售周期规律非常有帮助。

Null这行里线条非常多,是因为未参加测试的店铺很多。这些未参加测试的店铺将用于
与测试组进行对比。每家参与测试的店铺都被分到了三家对比店铺。每个组内,尽量配置销
售规模、销售时间模式变化都比较接近的店。这样,对比每个组内采用新营销方式的店和维
持原来状况的店,可以排除其他店铺特征因素的干扰,比较客观地比较新旧营销的效果。


第 不不不不不不不不

图10-4 各测试组销售数据的时间序列图

当然,无论怎么精心分组,现实情况下每个店铺的总体销售规模、客单价水平等因素依
然会有所不同,绝对指标图形上不容易直观地看出前后变化。前面章节曾将这种难以看清的

不不不不



统计图形戏称为“面条图”。尽管我们不喜欢“面条图”,但它确实是多家店铺两年以来销
售数据的直观表现。虽然可以利用Tableau提供的各种动态交互功能来逐步地探索数据(见

153

更多免费电子书搜索「雅书」 https://yabook.org
图10-5),但为了更清晰地进行分析对比,我们分析师的职责就是要建构更好的指标,发
现数据里隐含的真正价值。面对这一堆“面条”,采用每个店铺的销售量变动百分比是更好
的替代方式。

图10-5 交互观察图

继续构建每个测试组的销售额变化条形图(见图10-6)。条形为测试期前后每个店铺
平均销售额的变动百分比。红色为采取了新营销方式的店铺,蓝色为组内特征比较近似的对
比店铺。从图10-6可以清晰地看到,在每个组内,采取了新营销方式的店铺销售量都是上
升的,并且,除了S049组外,其他每个组内测试店铺的销售量提升都是最高的。所以,我们
基本可以确定新营销方式起到了不错的效果。
Tableau
商业分析 从新手到高手

图10-6 每个测试组的销售额变化条形图

154
图10-6的思路主要是“跟别人比”,主要指标是非常简单、实用的销售额变动百分
比,它把看上去差不多的绝对表现,变成了快速拉开差距的相对表现:图中九组数据,每一
组当中的橙色线条都比蓝色长,基本上可以得出结论,新营销行动有显著的正向促进作用。

某些企业甄选相似店铺非常难,没办法做到“跟别人比”,那如何判断营销策略是否管
用呢?这时候我们需要拉长时间轴,尽量看清楚长期的销售表现,将测试期跟自己的原始状
态比。图10-7展现了原始状态与测试期的销售额表现。

图10-7 店铺销售前后变化百分比线图

10.2 分析思路:用Tableau实现10.1节的分析


第 不不不不不不不不


(1)新建Tableau文件,配置数据源:连接“全部销售数据”和“测试分组信息表
.xlsx”,连接设置如图10-8所示,获得分析数据。分别修改字段名称:Test_label为测试店
标识,Group_label为测试组,Gross_Rev为周销售额。

(2)创建『测试时期标志』字段。在数据预览区,右击『Week_Ending』字段 ➤ 创
建计算字段,公式区域输入“IIF([Week_Ending]>#2011-10-08#,1,0)”,修改名字为“测
试时期标志”,如图10-9所示。 不
不不不不


155

更多免费电子书搜索「雅书」 https://yabook.org
图10-8 连接数据源设置

图10-9 输入公式

(3)绘制测试店铺前后销售对比图。新建工作表,拖动『Store_ID』到列功能区 ➤ 拖
动『周销售额』到行功能区域,双击修改公式“SUM(周销售额)”为“AVG(周销售额)” ➤
拖动『测试店标志』字段到筛选器面板,在弹出的菜单中勾选“1”(如图10-10所示),
过滤出所有的测试店,拖动『测试期标志』字段到标记选项板颜色标记,生成测试前后期平
均销售额情况图。

(4)生成对比店铺盒须图。复制一个上面绘制的图形。单击智能显示面板,单击盒须
Tableau

图,转化图形为盒须分布图 ➤ 双击筛选器面板测试店标志,在弹出的菜单中选择“0”,拖
商业分析 从新手到高手

动『测试时期标志』到标记面板颜色项,如图10-11所示,获得非测试店铺测试前后期间的
平均销售额情况图形。

156
图10-10 过滤出所有的测试店


第 不不不不不不不不


不不不不


图10-11 生成对比店铺盒须图

157

更多免费电子书搜索「雅书」 https://yabook.org
(5)建立销售时间序列图。新建工作表 ➤ 拖动『Week_Ending』字段到列功能区,
右键关联菜单,调整时间项到“天”层级 ➤ 拖动『测试组』到行功能区 ➤ 拖动『周销售
额』字段到列功能区 ➤ 拖动『Store_ID』到标记面板颜色标记 ➤ 在弹出的界面中选择添加
所有成员(如图10-12所示),右击智能显示面板,在弹出的界面中选择“线图”,获得不
同组每周的销售情况线图,如图10-13所示。

图10-12 选择“添加所有成员”
Tableau
商业分析 从新手到高手

图10-13 销售时间序列图

(6)添加参考线,如图10-14所示。在左面单击“分析”面板,拖动常量线到图形

158
区域 ➤ 放置到弹出动态对话框中天(Week_Ending)的右侧,在弹出对话框中设置日期为
“2011-10-8”,添加参考线。

图10-14 添加参考线

(7)设置参考线阴影,如图10-15所示。在图形参考线上单击鼠标右键 ➤ 在弹出的菜
单中选择编辑命令,在对话框中向下填充选灰色,设置测试之前日期称为阴影区。


第 不不不不不不不不

图10-15 设置参考线阴影

不不不不


(8)建立销售变化百分比图,如图10-16所示。新建工作表,拖动『测试组』和

159

更多免费电子书搜索「雅书」 https://yabook.org
『Store_ID』到行功能区域 ➤ 在测试组“NULL”项上单击鼠标右键,在弹出的菜单中选择
排除命令,过滤掉非测试的店铺 ➤ 双击『周销售额』字段,在标记面板区域双击新生成的
计算字段,修改SUM公式为AVG,获得平均销售额字段。

图10-16 建立销售变化百分比图

(9)在智能显示面板中选择条形图 ,拖动『测试时期标志』字段到标记面板颜色项,
如图10-17所示。
Tableau
商业分析 从新手到高手

图10-17 拖动字段到标记面板项

160
(10)在列功能区域右击『平均值(销售额)』字段,在弹出的菜单中选择添加表计算命
令,“计算类型”设为百分比差异,计算依据项目选择特定维度(如图10-18所示),勾选
测试时期标志复选框。拖动『测试店标志』到标记面板,将新添加的测试店标志从详细信息
项修改为颜色项目,单击颜色项配置颜色,如图10-19所示。

图10-18 设置“计算依据”


(11)复制步骤5生成的线图,过滤掉“NULL”值,拖动『测试店标志』到标记面板

第 不不不不不不不不


颜色项替换『Store_ID』,添加『测试时期标志』到列功能区域『天(Week_Ending)』前
面。在坐标轴上右击编辑轴配置轴,在弹出的菜单中选择每行或每列使用独立轴范围命令,
移除之前的参考线和参考区间,获得最终的线图如图10-20所示。


不不不不


161

更多免费电子书搜索「雅书」 https://yabook.org
图10-19 配置颜色
Tableau
商业分析 从新手到高手

图10-20 最终的线图

162
10.3 拓展技术专题10:A/B测试
A/B测试(也称为分离测试,国内习惯称为A/B Test),分析思想来源于统计学的分组
测试,是一种通用的研究方法,并不受到行业的限制,如图10-21所示。网页优化及市场营
销领域都可以使用该测试,最近也常用于移动互联网行业的产品测试。

图10-21 A/B测试示意

A/B测试的核心在于:对要研究的影响因素有两种版本(A/B),并且有衡量效果的度
量指标。将A/B两个版本同时做实验,然后根据比较不同实验获得的度量指标来决定哪个版
本更好,辅助决定在真正商业场景下去使用哪个版本。

A/B Test需要如下几个前提:

(1)两个方案同时并行测试。

(2)方案之间只有测量因素变量不同(现实情况下酌情放宽)。


(3)能够以某种规则比较方案的优劣。

第 不不不不不不不不


不不不不


163

更多免费电子书搜索「雅书」 https://yabook.org
第11章
大巧若拙:重新认识购物篮分析

娜娜:大威、术术,最近我们更新了电商平台,要筛选一些新产品和“品牌产品”在平
台销售,另外,还要将一些产品组合形成“促销装”,领导让我参考购物篮分析提供一些方
案。我查阅了一些资料,很多介绍都引用了一个“啤酒和尿布”的故事,我看了一下,没觉
得有什么特别的呀,不就是一个高频产品的组合吗?

大威:购物篮分析本质上是推荐分析的一种,基本的逻辑并不复杂,主要是运算量很
大,算法上具有一些技巧,很多算法的具体实现方式也不太一样。专业领域的一种算法叫做
协同过滤算法,是亚马逊的专利。当然商业逻辑上并不是“啤酒尿布”那么简单,那个案例
是营销公司为了推广算法而炒作的故事,真实性有待考察,对现实的指导意义不大,且有误
导。你想一下,企业真的指望一个发现可以带来很大收益吗。现实中哪有那么多big surprise
(大惊喜)。要总是从数据中发现这种big surprise,那说明企业对商业基本运转一无所知,
或者既有商业认知绝大多数都是错的,那就应该是惊吓了。

娜娜:这个问题我也想了。查阅资料时候,你说的这些内容我也看到了。但对我来
说,思维逻辑上还是深了一些,另外,我看到这类分析都是利用专门的工具来实现的,我用
Tableau可以实现这种分析吗?

大威:其实Tableau也是可以做一些购物篮分析的,但在数据量大时没有算法优化,效率
会很差。如果控制好数据的规模,不用特殊的分析工具,Tableau结合数据库就可以在一定程
度上实现简化版本的购物篮分析。我前期帮术术实现了一个类似分析主题,你先和术术交流
吧。有问题我们再探讨。这小子水准现在突飞猛进,应该能帮到你。

术术:娜姐,听说现在大闸蟹刚上市了……

娜娜:还没做事就开始邀功请赏了是不,跟你师傅不学好。放心,给我讲清楚了,保证
撑死你。

术术:放心,保证对得起螃蟹,不,对得起你。另外,先声明一下,数据我先要脱敏
的,我回头抓取一些常见的各种品牌,按照类似的特征对应到原来分析中,整个的分析逻辑
是一样的。

娜娜:知道了,生怕泄露了商业秘密。

术术:这是数据人的职业操守。不过话说回来,真实的数据其实并不重要,方法和思维
逻辑才重要。多数人都不明白,总是纠结于细节。每个真实场景的细节千差万别,互相间并
没有多少可借鉴性。

11.1 分析思路:购物篮分析
购物篮分析(Market Basket Analysis)这个名字非常形象好懂,顾名思义,就是通过分
析找出什么样的东西应该放在一起卖。通过观察顾客的购买行为来了解顾客喜好,以及顾客
购买商品的出发点,最终目的是找出关联(association)规则,帮助线上店铺和线下实体店
运用规则获得更大利益。

狭义的购物篮,通常指一次购物过程中或同一天的购物时间中,同一位消费者拿去结账
的所有商品组成的购物篮,如图11-1所示。广义的购物篮则在时间跨度与品类组合上放得
很宽。如今许多跨界营销常常刷新我们对购物篮的认知。本章所分享的购物篮分析无需借助
数据挖掘工具,直接在Tableau中就能实现。




大巧若拙:重新认识购物篮分析

图11-1 购物篮分析

165

更多免费电子书搜索「雅书」 https://yabook.org
通过Tableau连接到本章数据,按照『userid』字段进行自关联,构建不同品牌交叉购
买的热力图表,见图11-2。行和列对应客户所购买品牌,交叉单元格为品牌共同出现的次
数。颜色越靠近橙色,则表明次数越高。

品牌交叉出现频次映射颜色。颜色从绿色到黄色,则交叉频次从低到高

图11-2 不同品牌交叉购买的热力图表

图11-2是将数据直接拉进Tableau后的初步展现,真是非常难看的一张图。不过,依然
能显著地看到图形中包含许多黄色亮点,它们代表高频的交叉购买。如果黄色亮点在同一行
或同一列出现多次,甚至形成了黄色的色带,那么这样的色带对应的通常是是热销产品。许
多人听到“热销”就兴奋,似乎这意味着金钱源源不断地进来。可是对于营销人员来说,
“热销”意味着“常识”,谁都知道好卖的东西,谁都会进货并且摆在显著位置上销售。因
此,“热销”商品组合很难带来多少惊喜。营销人员期望发现的是“小而美”的新组合,这
才意味着新机会和高利润。

不管怎样,图形这么丑也是万万不行的,我们加入一些过滤条件再继续观察。首先加入
交叉频数的过滤条件。取频数200以上,见图11-3,可以看到,品牌的交叉频数较高的为多
Tableau

为服装品牌,其中有的关系为子母公司。可以看到,相同的消费者还是会购买同类且风格相
似的品牌,充分说明存在个人偏好组合。除了同类产品的高频交叉购买,数据上显示服装类
商业分析 从新手到高手

品牌“袜之魅”和保健品牌GNC(健安喜)的关联购买频次较高,说明热爱美丽的女性对健
康也同样关心。服装品牌和珠宝品牌也是高频交叉项。

我们建构了一个Lift指标,并将其作为过滤条件,加入到数据源里。Lift指标是指,交叉
出现项目占总体的比率和两种购买完全独立但随机同时出现比率之比。这个定义比较拗口,
算一下就简单明白了,具体计算公式见本章后部分的技术专题。通过SQL语法计算出各种中
间指标,然后定义计算公式可以获得Lift指标。

166
图11-3 按频数200过滤后的交叉购买热力图

继续增加获得的Lift指标筛选项后进行观察,我们过滤掉Lift为3以下的交叉项,同时保
留总体发生频数200~300次的交叉项(相对当前数据集在中间水平的项目),排除总体出
现频率较低和较高的项目。因为发生频次很低的交叉项,除非单品利润非常高,否则在商业
上没有太大意义。从统计学角度,较低比率在机率上也更容易偶然出现,很难保证是一种有
价值的行为模式。同样,超高频发生的交叉项目,多数的购买行为已经发生了,在推荐购买
营销中的上升空间有限,所以商业价值也不是很高。

现在,我们获取了一批中等频次、高提升度的交叉购买行为,这些行为可以作为一些商
业上的候选推荐规则进行部署,也可以用来作为一些营销活动的参考和指导信息。

这种交叉图形不容易观察结果,所以需生成嵌套表的形式来看。在工作表上单击鼠标


右键,在弹出的菜单中选择复制为交叉表命令,在新生成的界面中,拖动列功能区域『品牌



1』字段到行功能区域『品牌2』字段前面,可以获得行形式列出的交叉项目,这些项目可以

大巧若拙:重新认识购物篮分析
作为推荐索引表(图11-4)。

当然,如果我们追加或者更换其他的数据,或者进行筛选,最后获得的项目不完全相
同,但这些结果都会根据更新的数据源和条件更改自动更新,不需要重复手工操作。

回到数据,我们最后获得的项目多数是服装类的产品,因为服装品类为高频购买项,
所以在一个基于频数比率计算的购物篮分析中,会有更高的出现倾向。如果不想看到这些常
见的高频产品,可以提前过滤掉某些品类再进行分析,也可以在最后提取的规则中利用『品
类』字段进行过滤,还可以根据自己的商业经验设置一些其他过滤条件。例如,可以设置关

167

更多免费电子书搜索「雅书」 https://yabook.org
联产品的品类不同,只探索不同类之间的高频交叉购买。

图11-4 多条件过滤后的热力图和数据表

借助数据库和新工具的分析,不同于传统的分析,分析结果不是一份“死的”报告,而
是提供一种动态的、可重用的系统,里面包含了我们的分析逻辑,并且可以灵活调整和动态
更新,这才是敏捷可视化工具的正确使用方式,也是不同于传统报表的地方。

11.2 技术实现:用Tableau技术实现11.1节的分析
(1)新建数据源选Micorsoft Access项,连接存储购物流水数据的“购物篮.mdb”。
看到样本表sample中有两个字段——『会员ID』和『品牌』。为了进行购物蓝分析,需要所
有相同用户购买过的不同品牌交叉数据项,再次拖动sample表到数据连接区域,配置连接
字段为『会员ID』,进行相同表之间的自关联。在数据预览右击『区域会员ID(sample)』字
段,在弹出的菜单中选择隐藏命令,更改『品牌』字段名称分别为“品牌1”和“品牌2”,
如图11-5所示。
Tableau

(2)排除相同品牌项目,如图11-6所示。单击连接图标获得下拉菜单 ➤ 添加一个连
商业分析 从新手到高手

接控制条件 ➤ 数据源选择字段『品牌1』,条件选择不等于“< >”,销售流水副本字段选


择『品牌2』。可以看到,表中同一会员的相同品牌交叉项被过滤掉。

(3)构建交叉表,如图11-7所示。新建工作表 ➤ 拖动『会员Id』到数据区域的维度
面板 ➤ 拖动『品牌1』到行功能区域 ➤ 拖动『品牌2』到列功能区域 ➤ 拖动记录数到标记
面板文本项 ➤ 按住Ctrl拖动标记面板的『总计(记录数)』字段到颜色标签。

168
图11-5 连接字段




大巧若拙:重新认识购物篮分析

图11-6 排除相同品牌项目

169

更多免费电子书搜索「雅书」 https://yabook.org
图11-7 构建交叉表

(4)调整表视觉显示。在智能显示中选择突出显示表 ➤ 双击颜色标志 ➤ 在色板下拉


框设置为红色-绿色-金色发散(如图11-8所示),勾选使用完整颜色范围选项,勾选中心
文本框填写150,工具栏视图选择整个视图,获得整体的交叉概览图(如图11-9所示)。
Tableau
商业分析 从新手到高手

图11-8 设置颜色

(5)过滤图形对称部分。在数据区域单击鼠标右键,在弹出的菜单中选择创建计算字
段 命令 ➤ 输入公式“index()” ➤ 在公式面板右下角单击默认表计算选项 ➤ 在弹出菜单下
拉框选择品牌1命令➤ 单击确定按钮建立『行索引』字段 ➤ 在『行索引』字段上单击鼠标
右键,在弹出的菜单中选择复制命令 ➤ 编辑复制字段,修改名称为“列索引” ➤ 将表计算

170
“根据以下因素”项目修改为品牌2,单击确定按钮,如图11-10所示。

图11-9 整体的交叉概览图




大巧若拙:重新认识购物篮分析

图11-10 构建对角线数据过过滤字段

171

更多免费电子书搜索「雅书」 https://yabook.org
(6)在数据面板中右击创建计算字段 ➤ 命名为“行列相等” ➤ 输入公式“IIF([行索
引]>[列索引],1,0)”,单击确定按钮 ➤ 单击新建字段,在下拉框中更改字段类型为字符串 ➤
拖动『行列相等』字段到筛选器区域 ➤ 勾选项目1,单击确定按钮 ➤ 更改工作表的名称为
“交叉购物篮”,如图11-11所示。

(7)增加记录数筛选器。按住Ctrl键,拖动总计(记录数)到筛选器面板,在弹出的面
板中选择总计,单击下一步按钮 ➤ 最小值输入“200” ➤ 在图形中右击品牌1标签➤ 在弹
出的菜单中选择旋转标签命令,获得交叉热图,如图11-12所示。

图11-11 过滤掉对称数据的热力图

用来过滤关联项的Lift提升指标计算,需要几个不同的汇总数量指标。下面通过SQL语
句重新计算后合并到一起,作为我们可以用来计算的指标。

(8)单击界面坐下角的数据源,跳转到数据源窗口,修改“sample”名称为“销售
流水”,“sample1”为“销售流水副本”。单击新自定义SQL,在弹出的编辑界面中输入
语句“select 0 as 会员ID,count(*) as 总会员数 from (select distinct 会员ID from sample) t
”,单击确定按钮。联接界面字段设置为会员ID,条件设置为不等于“<>”,在数据中增
Tableau

加了一个『总会员数』字段,修改自定义SQL查询名称为“总会员数”。

(9)用同样方式再增加3个自定义SQL表:一个计算品牌1消费会员数量,另一个计算
商业分析 从新手到高手

品牌2的消费会员数量,还有一个计算两种品牌交叉会员数量又。SQL语句和连接配置如图
11-14至图11-16所示。

172
图11-12 增加记录数筛选器




大巧若拙:重新认识购物篮分析

图11-13 输入语句并建立连接

173

更多免费电子书搜索「雅书」 https://yabook.org
图11-14 自定义SQL表——计算品牌1消费会员数量

图11-15 自定义SQL表——计算品牌2的消费会员数量

图11-16 自定义SQL表——计算两种品牌交叉会员数量

(10)在数据预览框中隐藏不需要的字段,最后数据源界面保留的字段配置如图11-17
所示。

(11)返回交叉购物篮表,创建新字段lift,公式为“[品牌1_品牌2]/(([品牌1数量]/[总会
员数])*[品牌2数量])”,拖动Lift到筛选器面板,在弹出的菜单中选择最小值命令,添加Lift
为筛选器,最小值添加3,获得根据频数和Lift筛选过的表,如图11-18所示。

补充说明:
Tableau

以上方法,需要Tableau软件通过SQL语句动态操作数据这种边写边跑数据的做法,
商业分析 从新手到高手

会导致图表输出减慢。电脑内存不多的读者,不妨使用数据库中另一张更小的数据表
“sample_small”完成操作过程。另外,配置完数据源后动态观察数据时,可以先进行数据
提取,计算效率会比较高。

如果是一些已经确定的、长期持续的数据操作,可以将所有SQL语句都在数据库内执
行。可以定期计算新表或者使用存储过程提前计算,然后Tableau取连接数据库内的运算结
果,效率会比较高。附带的数据库中已经写好了一些查询过程,读者也可以连接数据库中的
查询替代在Tableau中的自定义SQL。

174
图11-17 数据源界面保留的字段配置




大巧若拙:重新认识购物篮分析

图11-18 根据频数和Lift筛选表

175

更多免费电子书搜索「雅书」 https://yabook.org
如果需要完成更多项的购物篮分析(关联分析),可以使用更专业的数据挖掘工具,
例如R,这些工具的模型算法都是写好的,使用者仅仅需要调用算法模型就可以很快获得结
果,无需自己进行各种计算,然后将获得的关联规则和各种指标结果连接到Tableau进行展
示和探索,是更好的一种方式。

11.3 拓展技术专题11:购物篮Lift(提升)指标
“购物篮分析”是一种比较流行的、简化的称呼。此类分析方法专业领域一般称为“关
联分析”,很多数据挖掘工具都会提供专门的模型来处理此类分析。

“关联分析”本质上用来探索多种分类数据之间的关系,如图11-19所示。可以是同一
个人的不同产品购买行为,也可以是同一个人的不同特征,例如性别、种族、信仰、是否吸
烟等非数量特征之间的关联情况。这类分析可能会得出一些结论性的规则,例如:
yy 购买红酒和奶酪的,也会购买水果。
yy 男性黑人多数是吸烟者。

图11-19 “关联分析”示意

关联分析后面基本的算法逻辑是由频率计算支持。但我们可以发现,单纯的关注频率会
产生一个问题,就是一些必然的、高频的项目会和其他项目频繁地一起出现,但我们并不能
从高频推论是否存在关联关系。

例如,统计日常超市购物行为,生活必需品(如米和面)会经常交叉购买,但这种高频
Tableau

项没有商业意义。所以,关联分析借助了概率中“独立事件”的概念,构建了一个Lift(提
升)指标,来帮助我们判断计算获得的高频项是否有意义。
商业分析 从新手到高手

Lift指标 :

如果事件A 和B 独立,
P (A ∩B )
=1
P (A )·P (B )

176
概 率 上 判 断 两 个 事 件A 、B 独 立 , 则 公 式P (A ∩B ) =P (A ) ×P (B ) 成 立 , 即P (A ∩B ) /
P (A )×P (B )=1。其中,P 代表出现的概率,在数据量很大时候,可以用占总体的比率来估计。
Lift计算就是左面的公式,通过和值1比较,就可以估计算出共同项目的数量和完全随机出现
的数量差异的情况,从而判断所获得规则的力度。




大巧若拙:重新认识购物篮分析

177

更多免费电子书搜索「雅书」 https://yabook.org
第四部分

技术扩展主题

前面已经进行了多种业务场景分析和Tableau技术实现的展示。本部分将综合Tableau、
R和Kettle进行一个电商平台上产品评论的分析。

之前的分析,为了更清晰地阐述商业主题,分析过程和思路都是作为最终结果单独呈现
的,具体的Tableau软件实现过程在每个案例后单独说明,这种结构主要为了读者更快速地
理解分析逻辑,但并不是现实分析过程的展示。现实的分析过程中,对数据的加工处理→信
息探查→推断结论→数据中求证→再进行数据处理等,多个流程之间是来来回回、千丝万缕
的交叉。

前面我们已经展现了多个场景,读者对Tableau的使用也应该非常熟悉了,所以,本部
分将回归完全真实的数据处理分析过程,我们将看到数据的“反复处理不断提问后续的
处理推翻或者确定问题”的真实流程。整体思路不再步步清晰,处理步骤不再一马平川般
流畅,但这才是数据分析师的真正日常。

本部分数据集说明见下表。

数据文件 字 段 说 明
1-手机评论文本源文件.csv 无字段名称 文本文件每个评论占据一行
stopCn 无字段名称 文本文件每个停止词占据一行
词语
词性种类
大连理工大学信息检索研究室整理和标注的一个中文资源
情感分类
情感词汇本体 包。该资源从不同角度描述一个中文词汇或者短语,包括
情感大类
词语词性种类、情感类别、情感强度及极性等信息
强度
极性
编码 分词对应的评论编码,用来区分每条评论
自定义分词 通过自定义的手机字典处理评论获取的分词
自定义分词归类 情感倾向 中文词的情感倾向
小类 归纳的描述涉及的产品和营销特征的小类
大类 归纳的描述涉及的产品和营销特征的大类

更多免费电子书搜索「雅书」 https://yabook.org
第12章
人言可畏:快速捕获客户对产品
的关键评价

鹏辉:兄弟姐妹们,今天天气不好,你们怎么过来的?这雾霾,真可以啊。我幸好是从
公司楼底下直接穿行到地铁站来的,要是骑共享单车,还不得变成包公脸啊。

娜娜:咦,你不是说我吧,看出来啦?我今天这心情和天气差不多!

萧岚:娜娜,你有什么苦恼吗,看你工作干的不错啊!

娜娜:也不晓得是不是发力太猛了,老板居然让我分析我们电商平台上的客户评价,说
是除了要看数字,还要看品质,想了解消费者评论商品的口碑。

大威:让领导有空的时候直接到网上看看评论不就得了么,那样快得多。口碑分析是我
比较不愿干的事,费半天劲,光建立专业术语词库就花不少功夫,最后能展现的关键结论却
不多。

娜娜:威哥,您要不来我公司溜达溜达,伺机把这话说给我老板听吧。

大威:嘿嘿,你就不怕老板爱才,把我直接留下了。

娜娜:那你得看得上我们的工资才行,我估计赶不上你现在挣的。

萧岚:那可不一定,大威现在就是想玩数据,喜欢干分析的活,要不然的话,把他那
些个本事秀一秀,估计至少给他1.5倍Headcount的工资吧。你看他Tableau玩得好那只是基本
的,跑算法模型是目前的正式工种。他要是想多挣点,还能当半个IT,把Tableau Server 管理
和维护起来。大威,你要是真去了,老板们肯定都喜欢。

大威:别调侃我了,这现在都“男人当牲口使”了,去了新地方能让我闲着么,我这
“知识网红”的道路才刚刚开始呢,先玩玩这条道再说吧。娜娜,你这个分析评论的活,我
给你讲个案例。
萧岚:好吧,大威,你什么时候开直播,我们一定搬好小板凳认真地等着。哎,说真
的,Tableau周边可用的工具特别多,要想玩到你这样,还真的需要点网红精神!

近期企业对非结构化数据的重视和运用,尤其是对消费者针对商品的各种形式的反馈信
息开始变得普遍起来。商业上从来不否定非结构化数据的价值,但非结构化资料在早期的商
业中没有获得大范围地应用,是有其合理的原因。

首先,对非结构化数据分析在技术处理上存在难度。更最重要的原因可能是,在新型移
动网络和智能手机普及之前,非结构化数据采集和存贮并没有大范围地电子化,大规模地搜
集和利用具有相当大的难度和成本。

所以我们看到,之前这种信息的应用一般会存在于一些重点项目中,由市场调研公司专
门进行一些开放式调查,或者进行一些专门的焦点小组访谈,然后人工进行关键字和词的归
纳总结,撰写一些专题的访谈分析报告等输出形式。

这种分析引入了一些量化的思路,但结果的好坏受限于整个流程的各个环节:调查者的
样本合理性;整个调查的质量;分析者的调研能力、对信息的洞察力以及总结和分享能力。
一般由于成本限制,研究样本的数量有限,任何一个环节有问题,都会造成最终信息的很大
的偏差。

另外一个隐藏的问题在于,以往的信息反馈渠道是被动接收的,更多的不满意者用脚投
票,或者将负面信息传递给周边的亲戚朋友,而所有的这些,企业这端或者知道一些局部的
信息,甚至一无所知,结果是无法获取客户重要的售后体验并有所作为。当然,企业也可以
对这些“局部负面体验”装聋作哑。

但当前的情况已经完全改变,用户对产品的公开评价已经成为一种习惯和常态,随着各


种第三方评价网站、社交网络的兴起,一个普通客户的一句话都可能会影响你潜在客户的一



个决策,更不用说各种影响力极大的行业专家和意见领袖了。所以企业已经无法“埋头继续

人言可畏:快速捕获客户对产品的关键评价
做鸵鸟”了。但是,任何事物都有两面性,好的方面在于,如果企业掌握了很好的信息捕获
和分析能力,这些评论也会带来无限的机会,让企业更好地了解消费者,更了解地他的竞争
对手。

这些,以往都需要专业的商业情报搜集能力以及高昂的成本,但随着技术的发展,难度
和成本都快速降低。下面,我们结合Tableau、R以及Kettle进行一个文本分析场景的演示。

12.1 获取评论数据
评论数据的获取超出了本书的内容范围,但对相关技术还是稍作阐述。有兴趣的读者
可以搜集相关的爬虫技术资料进行深入了解。随着中文语音转文本技术的高度成熟,我们

181

更多免费电子书搜索「雅书」 https://yabook.org
相信,随后两年,文本挖掘的技术会非常普及,咱们赶快先学起来。而且,随着AI技术的成
熟,估计将出现越来越多的人机对话,用Tableau展示其过程和关键结果,肯定比写文字摘
要好看。

如果要分析的资料是来自于企业的网络平台,联络你们的IT人员吧,前期技术上对分析
的准备和判断可能会决定了评论数据获取的技术难易程度,但通常都有方法可以提取到需要
的基础资料。

如要获得企业外部的相关数据,可以根据关键词搜索和各种数据爬虫技术获得,这方面
的选择有很多,有专门的软件平台、专业工具或者专业的服务团队。所有的信息都有手段获
得,关键在于你要清晰地知道自己需要什么。

真实企业的客户相关商品评价数据涉及过多敏感信息,并且很难脱敏和重构,所以本部
分的分析案例提取了京东上某手机产品的评论数据来演示过程,但是技术上的很多关键环节
是通用的。

12.2 相关软件安装及介绍
数据分析领域发展到现在,早已经不再是一个简单的行业,所以不能期望一种工具和技
能解决所有的问题。Tableau作为一个非常优秀的自助式可视化分析工具,其数据可视化能
力非常强,但在其他的数据处理功能上,目前还不够。为了进行更深层次的分析,需要一些
其他的专业分析和建模软件共同完成分析。

这里,我们结合R语言来进行文本分析。R语言之前在统计学家的小众领域比较流行,
但随着大数据在各个行业的爆发, R语言开始流行于各种分析场景,与Python一起成为了数
据分析人员的标准技能。Tableau里面提供了直接和R进行通信的函数,可以将数据发送到R
中进行一些运算再将结果提取回来,但因数据传输接口能力的限制,并没有直接使用灵活。
对于复杂的信息,我们还是直接使用R语言来处理,然后将处理结果输入Tableau来进行后续
的分析和使用。
Tableau

我们这里提取了京东上某手机品牌的评论数据,直接存储为文本文件格式,每行为一条
商业分析 从新手到高手

评论,如图12-1所示。

非结构的文本数据无法进行标准化的分析和展示,必须进行中文分词以及一系列的后续
处理。我们使用R的jiebaR包来进行分词。

R软件官方下载地址:https://www.r-project.org

RStudio下载地址:https://www.rstudio.com

R软件提供了自己的IDE操作界面,但一般大家都使用一家第三方公司开发的开源的IDE

182
工具Rstudio,该工具提供了很多辅助的功能,例如代码的提示、自动完成等,帮助程序员
更高效率地进行R语言编程。下面介绍软件的安装。

图12-1 原始评论文件

1. R的安装
Windows用户在R官网下载安装包,选择安装路径以及相应的版本(32位或者64位),
继续单击下一步按钮直到安装完成,如图12-2所示。如果需要自己配置软件安装路径,可
以在中间过程修改。




人言可畏:快速捕获客户对产品的关键评价

图12-2 安装界面

R启动后官方自带的GUI界面。可以直接在该界面下输入R命令进行交互式操作,如图
12-3所示。

183

更多免费电子书搜索「雅书」 https://yabook.org
图12-3 R 启动界面

2. RStudio的安装
读者可以到RStudio官网下载软件安装包。RStudio的安装过程类似,不再赘述。

软件安装完毕,打开软件默认界面如图12-4所示。可以根据个人习惯自行修改不同功
能和布局,具体参考RSudio帮助文件。

一个主要的配置在菜单TOOL➤Global Options中,在弹出界面中可以配置RSudio的各
种参数,以及使用的R语言版本。
Tableau
商业分析 从新手到高手

图12-4 RStudio界面

184
12.3 R语言的中文分词及处理
打开RStudio,在左上角单击创建新文件的“加号”图标,创建新的R脚本文件。并输入
图12-5界面内的代码。

图12-5 分词代码

选中所有代码,按住Ctrl键按键盘上的Enter键执行代码,会在设置好的工作路径中存储
一个切分好的文件,名称格式是“原始文件.segment.日期.csv”。

下面逐行解释代码:

(1)安装中文分词包“jiebaR”方法如下。R语言默认有一些核心功能,但具有非常丰
富的扩展功能包,“jiebaR”就是一个比较主流的中文分词扩展包。
install.packages(“jiebaR”)
(2)载入安装好的包。
library(jiebaR)
(3)设置默认的工作路径。该路径下存储了需要分词的文件、需要使用的中文停止词
词典,生成的分词文件也会自动存储在该路径。当然,可以在后面的分词语句中写完整路径
参数,但是效率比较低,所以预先配置默认的工作路径,简化代码。


setwd(“E:/bizinsight/TableauBook/相关数据”)
(4)提前配置一个分词器“wordsplit”,定义好中文分词的各种选项,这里配置输出文




件编码为UTF-8,停止词字典为“stopCn.txt”,每个句子的中文分词存储为一行。

人言可畏:快速捕获客户对产品的关键评价
wordsplit<-worker(stop_word = “stopCn.txt”,encoding = ‘UTF-8’,bylines = TRUE)
(5)设置输入文件存储路径。对文本文件”1-手机评论文本源文件.csv”按照上面设
置好的配置进行分词,分词文件自动存储到工作路径。
outputfile = segment(“1-手机评论文本源文件.csv”,wordsplit)
获得的分词文件内容如图12-6所示。

可以看到,每句占据一个单元格,并且切分出的每个词之间以空格间隔。这种格式还不
能支持后续分析,可以用R代码继续处理到最终需要的数据格式,但考虑到Tableau的用户多
数对可视化的界面操作比较舒适,所以我们使用之前已经介绍过的ETL工具——Kettle做后
续处理。

185

更多免费电子书搜索「雅书」 https://yabook.org
图12-6 获得的分词文件

12.4 应用Kettle进行后续处理
强调:Kettle中每一种封装的功能组件叫做“步骤”。在很多其他软件中叫做“功能节
点”。在此再次说明,避免读者混淆。

(1)打开Kettle软件,加入两个文本文件获取步骤,分别用来读取原始评论文件和R处
理后的分词文件,如图12-7所示。(分词分析需要很多人工的干预,加入原始文本信息可
以方便分析者随时参考原始信息对照,必要时需要人工调整词典重新进行分词)
Tableau
商业分析 从新手到高手

图12-7 加入两个文本文件

(2)修改读取原始文件的步骤名称为“原始评论”➤双击进入配置界面,单击浏览按

186
钮定位到原始评论文件“1-手机评论文本源文件”,单击添加按钮增加文件,进入“内容”
配置面板 ➤ 去掉头部选项,勾选选择输出包含行数,编码方式填写“GBK”➤进入字段面
板,单击获取字段按钮,修改“field1”名称为“评论”,单击确定按钮完成原始评论数据
的读入,如图12-8所示。




人言可畏:快速捕获客户对产品的关键评价
图12-8 读入原始评论数据

如果配置正确,单击步骤的预览数据按钮,可以看到如图12-9所示的数据。

图12-9 预览数据

187

更多免费电子书搜索「雅书」 https://yabook.org
(3)复制一个文本文件“步骤”,将名称修改为“分词文件输入”,读取之前R代码
生成的分词文件。将编码方式修改为“UTF-8”,字段名称不修改,其他配置保持一致。在
数据源头不进行字段切割,其他设置与“原始评论”相同。如果配置正确,单击步骤的预览
数据按钮,可以看到如图12-10所示的数据。

图12-10 预览“分词文件输入”

(4)将分词文件输入步骤连接列拆分为多行步骤,配置要拆分的字段为“field1”,新
字段名称为“分词”。对『分词』字段进行拆分,同时转化为列数据格式(同一个评论拆分
的词,每个占一行)。单击菜单栏预览图标 观察预览结果,如图12-11所示。
Tableau
商业分析 从新手到高手

图12-11 预览结果

(5)连接两个排序记录步骤,设置排序字段为“id”。连接一个(合并)Multiway
Merge Join步骤,配置“id”作为连接关键字,如图12-2所示。

188
图12-12 配置“id”作为连接关键字

(6)加入字段选择步骤,过滤掉不需要的字段,连接一个文本输出步骤,配置“Tab”
键为分割符号,采用“UTF-8”编码执行存储处理好的文件,如图12-13所示。




人言可畏:快速捕获客户对产品的关键评价

图12-13 设置“文本输出”

189

更多免费电子书搜索「雅书」 https://yabook.org
12.5 技术实现:分词文件的Tableau可视化分析
(1)新建Tableau文件,新建数据连接,连接处理过的评论分词文件“原始数据分词
列格式”。同时,为了进一步的语义分析,连接一个中文词汇情感标注文件“情感词汇本体
.xlsx”,该文件中标注了中文词汇的词性以及情感倾向。不是所有的分词都有相关的标注信
息,所以采用左连接的方式,保留所有分词结果,同时提取能够获取的中文词语标注信息,
连接如图12-14所示。

图12-14 数据连接

(2)新建工作表,命名为“观察处理数据”。先构建一个颜色交叉表观察评论中词的
分布情况。“分词”字段中的数字和英文字母内容对分析没有意义,按住Shift进行多选后,
Tableau

单击鼠标右键,在弹出的菜单中选择排除命令,过滤掉这些分析不需要的内容,如图12-15
所示。
商业分析 从新手到高手

(3)拖动『分词』到列功能区域,拖动『评论』字段到行功能区域,观察到评论中同
样具有对分析没有意义的数字,多选后单击鼠标右键,在弹出的菜单中选择排除命令。拖动
记录数到标记面板的颜色项,建立了『评论』字段和『分词』字段项的突出显示表,我们可
以通过观察这张表获得词汇分布的概要信息,如图12-16所示。

190
图12-15 过滤掉这些分析不需要的内容




人言可畏:快速捕获客户对产品的关键评价
图12-16 评论字段添加与预览

(4)图中多数单元格都是空白,在上面显示项下拉菜单中选择整个视图,先概览一下
数据的分布情况,如图12-17所示。

191

更多免费电子书搜索「雅书」 https://yabook.org
图12-17 概览数据的分布情况

(5)单色图形模式不明显,所以更换一个色板以获得更清晰的图形显示。双击图形右
侧颜色标记➤色板选择对比强烈的红色-蓝色发散➤选择渐变颜色,选择倒序,选择使用完
整颜色范围,单击确定按钮获重新设置的图形,如图12-18所示。
Tableau
商业分析 从新手到高手

图12-18 编辑颜色

192
现在可以看到,图形中有一条明显的蓝色竖条纹(如图12-19所示),代表有一些词汇
在多个评论中频繁出现。另外,有一些零散的红色小斑点(在软件中可放大查看),代表一
些单条评论中有同一词汇高频出现,这肯定是不合理的。

图12-19 有一条明显的蓝色竖条纹

(6)右击『总计(记录数)』字段➤在弹出的菜单中选择显示筛选器命令,软件自动


添加筛选器,并且筛选器显示在界面右侧区域 ➤ 设置最小值5,只显示累计出现5次以上的
词。我们观察单个词出现5次以上的评论,发现都是没有意义的评论(如图12-20所示),




是为了凑评论数或者随便填充的词语,对分析不会带来什么贡献,这部分数据可以过滤掉。

人言可畏:快速捕获客户对产品的关键评价

图12-20 累计出现5次以上的词

(7)态度保守一些,我们现在增加过滤条件,排除单个词汇出现10次以上的评论。我
们需要根据上面分析获得信息构建一个新字段。在字段区域右击创建新字段,在弹出的菜单

193

更多免费电子书搜索「雅书」 https://yabook.org
中输入名称为“单评论相同词频”,公式输入“{ FIXED [评论],[分词]:COUNT([记录数])}”,
构建一个新字段来统计同一条评论中相同词出现的频率。拖动创建的新字段『单评论相同词
频』到筛选器➤在弹出的菜单中选择属性命令➤选择至多,最大项添写“10”,单击确定按
钮,增加一个筛选器,如图12-21所示。

图12-21 选择“属性”命令并选择“至多”

(8)现在对筛选后的分词做总体的观察分析。在智能显示菜单中选择填充气泡图➤在
标记面板区域删除『评论』字段➤在顶栏工具栏单击降序图标 。
现在可以看到高频词汇主要涉及到几个方面:价格、速度、上网及外观(如图12-22所
示)。价格是商品永恒的话题。另外,手机是电子时尚产品,所以涉及速度和外观的评价也
很多。

我们再从词性的维度进一步分析。
Tableau

(9)拖动『词性种类』字段到标记面板颜色标记➤在『词性种类』字段上单击鼠标右
键,在弹出的菜单中选择显示筛选器命令,增加一个筛选器。
商业分析 从新手到高手

如图12-23所示,我们看到,相当大一部分的词语没有在词性表中匹配到词性。在文本
分析过程中,尤其针对特定领域和场景的分析,使用基于全部汉语词汇的、通用的标注字
典,这是一种常见情况。我们分析的文本是较口语的随意产品评论,出现这种情况并不意
外。

194
图12-22 分词气泡图




人言可畏:快速捕获客户对产品的关键评价

图12-23 不同词性分布气泡图

195

更多免费电子书搜索「雅书」 https://yabook.org
先使用过滤器过滤掉没有词性的“NULL”值,观察具有词性的评论词汇状况如图
12-24所示。

现在更容易看到其他分词和词性的总体分布。总体看,占据多数的词汇正向评价居多
(如图12-24所示),说明综合的评价还是正向的。另外,形容词、名词和动词居多,可以
按词性种类逐条观察分析。但匹配的词性表中有词语的“极性”属性,可以直接加入“极
性”属性来观察不同情感倾向的评论情况。

图12-24 排除null值后的词性分布气泡图
Tableau

(10)增加一个词语极性的判断。极性原始标注为数字,0代表中性,1代表正面,2代
表负面。将度量中的『极性』拖入维度,右键单击此字段➤在弹出的菜单中选择别名命令添
商业分析 从新手到高手

加中文标签➤然后拖动『极性』字段到列功能区域。

总体来看,正面和中性图形面积最大(如图12-25所示),说明这两类评价居多将该工
作表命名为“评论极性观察”。

(11)继续按照词性来做一个简化的观察:复制上一张“评论极性观察工作表,去除
『分词』字段,将图形转化为条形图 ➤ 将行中的『极性』拖入颜色标记,再将维度中的
『极性』拖入标签标记,命名为“评论极性数量”,如图12-26所示。我们发现,使用惯用

196
语(idiom)人群评论,从字典来看,多数是成语和惯用语的人群,评价多数居于正面和中
性。但使用网络用语(nw)的群体,负面评价居多。可以看出,对于比较传统的人群评价
趋于正面,但对于对互联网比较熟悉的人群负面评价很多,可能这部分人群会构成一个特殊
需求的消费群,应该提供一些特殊的手机来满足。

图12-25 评论极性观察


图12-26 评论极性数量




(12)词语极性的评价比较宽泛,更多的从语义学角度来归纳。我们再加入一个更细的

人言可畏:快速捕获客户对产品的关键评价
情感分类来观察。新建工作表 ➤ 拖动『情感大类』到行功能区与颜色标记中,『记录数』
到列功能区 ➤ 降序排列后可以发现好的评价居多,但否定评价也占一定比重,情绪上正面
的居多(好和乐),但后悔不满(恶和哀)也有一些,如图12-27所示,将该图命名为“情
感类观察”。

对这种评价现状是否接受,涉及到平台的管理目标、竞争品的情况,还有群体特征的细
化分析。例如,可能有部分恶意评价、部分非标准人群、习惯性差评群体等。初步分析会提
供方向和线索,需要添加更多的数据维度才能做更具体的分析,如图12-28所示。

上面主要观察了能匹配到标准语义的部分,我们将多张表合并成仪表板进行观察(如图
12-28所示)。还有最大一部分没有匹配到词性的评论分词,我们可以进行人工观察,归纳
总结。

197

更多免费电子书搜索「雅书」 https://yabook.org
图12-27 情感类观察
Tableau
商业分析 从新手到高手

图12-28 特征合并观察仪表板

文本分析更多依赖于适应行业和场景的适当的字典,这种字典可以自己逐渐总结,也可
以寻找各种公开资源,然后人工改造。我们提供了一份自定义的手机评测字典,并且关键词
归纳为了几大类,现在重新利用自定义的字典进行分词,然后再来做进一步的分析。

(13)我们打开之前存储的R语言文件,增加一个自定义用户字典参数。

198
重新执行后,会发现新的分词已经按照我们总结的字典重新划分,如图12-29所示。
library(jiebaR)
setwd(“E:/bizinsight/TableauBook/相关数据/TextAnaly”)
wordsplit<-worker(user =”./手机字典.txt”, ←增加手机字典的路径
output =”./wordPhone” , ←修改输出文件名称
stop_word = “stopCn.txt”,
encoding = ‘UTF-8’,bylines = TRUE
) #分词器
new_user_word(wordsplit,c(“4G”,”4g”,”3g”,”3G”,”GB”)) ←自定义新词
outputfile = segment(“1-手机评论文本源文件.csv”,wordsplit)

图12-29 自定义用户字典

(14)打开之前的Kettle文件,修改分词数据源连接到wordPhone和输出文件节点,重
新生成一个自定义分词列格式文件,如图12-30所示。




图12-30 重新生成自定义分词列格式文件 人言可畏:快速捕获客户对产品的关键评价

(15)回到Tableau分析文件,单击菜单数据➤新建数据源➤文本文件,定位到新生成
的“自定义分词列格式”文件➤修改数据源名称为“自定义分词分析”➤单击添加按钮➤选
择Excel文件➤连接“自定义分词列格式”与“dict”,连接方式为“内部连接”。

我们只分析自定义的词语,所以定义文件连接为内部连接,提取所有和自定义词典匹配
的评论数据。这样就获取了评论分词的两级归类和情感倾向。

199

更多免费电子书搜索「雅书」 https://yabook.org
图12-31 连接自定义分词归类表

(16)新建工作表,重命名为“自定义分词分析”,开始自定义分词的分析。

首先构建一个新的计数字段——『情感方向计数』,如果分词的情感倾向为负向
(N),赋值为-1,正向(P)赋值为1,这样获得的计数汇总会有正负方向,方便可视化观
察。字段公式:IIF([情感倾向]='N',-1,1)。

拖动字段『大类』、『小类』到行 ➤ 拖动字段『情感倾向』到列 ➤ 拖动『情感方向


计数』到文本 ➤ 右上角智能显示选择“突出显示表” ➤ 单击菜单栏的行列交互图表,变
回列式表格,调整小类列宽,获得不同类别的正负评价数量。

数据表的方式观察模式不够清晰,在工作表上单击鼠标右键 ➤ 在弹出的菜单中选择
“复制”命令,建立一个“自定义分词条形图”副本文件 ➤ 按照图12-33调整后,获得产
Tableau

品评分的条形图(图12-34)。P蓝色为正倾向,N红色为负倾向。
商业分析 从新手到高手

200
图12-32 获得不同类别的正负评价数量




人言可畏:快速捕获客户对产品的关键评价

图12-33 按照此图调整

201

更多免费电子书搜索「雅书」 https://yabook.org
图12-34 自定义分词条形图

可以明确看到,平台上销售的手机,促销和价格以及总体评价不错,说明在整个性价比
感觉上,用户还算满意。品牌和外观上的印象也不错,但性能配置、功能性、可靠性和稳定
性方面,虽然总体评论的频次不高,但负面评价较多。这也印证了之前按标准分词分类时候
发现的问题:即,非技术人群、“外行小白”,多数觉得还可以;但偏技术人群对产品的总
体评价不高。虽然从数量规模上看,这部分不是主要客群,但如果想要开拓这方面的市场,
产品线可能需要丰富和更新。至少目前的状况是,这部分人群态度上是不认可的。而在电子
类产品的影响力上,这部分人群可能比一般消费者对周围有更高的影响力,所以,该类人群
的负面印象,造成的损失可能会高于表面数据所表现的规模。
Tableau

另外一点需要警惕的是,随时市场的普及,消费者的专业知识会逐渐提升,对性能和技
商业分析 从新手到高手

术的要求会逐渐增加,目前几个方面的优势,在未来的市场上会逐渐不那么重要,所以,无
论早晚,几项短板还是需要修补。

用同一张图展现不同类别数据时,可能会因为某些类别的数值过大或者过小而使得差
异识别变得困难,可以观察图12-34,由大类至小类展现客户评价数量时,由于客户习惯于
先表达对手机的整体评价和印象,因此爬虫所采集到的这类评价条数最多,达到了两千多
条,这条高高的柱子一下就将统计图形拉成了图12-34的样子。这样的统计图形无法有效展

202
示在九个大类下各小类的数量差异。我们可以复制多个工作表,每张展示不同的大类(如图
12-35所示),这样可以突出评价的差异,然后再用一个仪表板组织到一起。当然,利用表
计算把差异转化称为百分比也是一个展示方法。

强项

弱项





图12-35 分开绘制的仪表板

人言可畏:快速捕获客户对产品的关键评价
这个文本分析到这里就告一段落。我们可以发现,非结构化数据中虽然蕴藏着丰富的
信息,但也需要耗费大量的精力反复处理和分析。对于文本分析,首要环节是要有适合场景
的分词字典。很少能够找到现存的、完全匹配你需要的分析场景,可以从一次粗糙的分词开
始,结合各种文本分析技术(例如关键字提取、词干分析,再重点查看,手工添加词,定义
字典等)逐步构造自定义字典。好消息在于,你的行业经验往往会起到很大的作用。另外,
这种工作不是一次性的,你所有的工作都是可以不断累积。

文本分析的价值不仅仅局限于案例里面的展示,商业上,我们可以结合品牌、时间,甚
至消费者特征不停地深挖下去,获得对商业有价值的知识。技术上,可以结合各种建模技术
进行预测、分类和甄别,文本的信息可以和传统的结构化信息结合起来发挥更大的效用。

203

更多免费电子书搜索「雅书」 https://yabook.org
可能但不限于以下场景:
yy 保险行业,可以结合现场的文字记录,分词后结合保单中的其他标准信息以及保单的
损失,建立一个风险评估模型。如果有历史欺诈标志的记载,也可以建立欺诈评估模
型。
yy 客服系统,可以对客户的投诉进行分词,并人工标注一些重点问题和客户,然后利用
分词结果结合人工标注就可能建立起自动归类模型,节约大量的人力物力,并且更
快速地定位到关键问题和客户,这对大型企业每天以万计数的客服系统会产生很大价
值。
本质上,文本分析和其他数据技术一样,是通用的工具。现实应用的挑战在于数据质
量,现在对商业问题的理解和转化能力,在技术上已经不是问题。

12.6 拓展技术专题12:文本分析的要点与难点
文本分析的主要目标是将无结构的原始文本转化为结构化的、计算机可以识别处理的信
息。在文本进行科学、合理的抽象后,以结构化的形式描述和代替原始文本。一旦新的形式
得以抽取出来,就可以根据新形态的数据建立数学模型,利用各种成熟的分析手段进行处理
和分析。

文本分析中一个比较重要且基础的概念是“分词”,可以类比于我们以往的关键词提
取,就是采用一些技术手段对文本进行自动的词语分割,然后抛弃掉没有实际意义的数字、
虚词、语气词等,最后提取出以少量关键字表示的词向量。所有后续的分析和处理都是基于
词向量。

分词和词频做了基本的过滤处理后,得到的特征项文本向量中的各个维仍是非常的大。
处理和运算这种文本向量需要巨大的计算开销,处理效率非常低下,而且会损害分类、聚类
算法的精确性,得到的结果很难令人满意。一般会对文本向量作进一步净化处理,在保证原
文含义的基础上,找出对文本特征类别最具代表性的文本特征。目前最有效的办法是通过特
征选择来降维。
Tableau

特征项必须具备一定的特性:①确实能够标识文本内容;②具有将目标文本与其他文本
商业分析 从新手到高手

相区分的能力;③个数不能太多;④分离要比较容易实现。

中文文本可以采用字、词或短语作为表示文本的特征项。词比字具有更强的表达能力,
词的切分难度比短语的切分难度小。因此,目前大多数中文文本分类系统都采用词作为特征
项,称作特征词。

文本特征选择对文本内容的过滤和分类、聚类处理和自动摘要、用户兴趣模式发现以及

204
知识发现等有关方面的研究都有非常重要的作用。由于现实中的文本信息几乎无所不在,所
以文本分析有非常丰富的现实场景。

例如,在商业上可以用来做人群的划分、产品特征的归纳等。图12-36与图12-37展示
了从样例数据中分析获得的主要特征项。雷达图较好地为分析结论赋予了量化得分,便于直
观展现和对比两款手机在各个特征项上的表现。使用Tableau画雷达图需要转换数据格式,
雷达图不能被直接从Tableau的智能图表选项里拽出来。请感兴趣的读者关注Bizinsight的
“数据艺术家”微信公众号,往期文章中有针对Tableau如何设计雷达图的专题。

图12-36 两款手机的人群特征归纳




人言可畏:快速捕获客户对产品的关键评价

205

更多免费电子书搜索「雅书」 https://yabook.org
第13章
设计仪表盘:谁敢说自己不是
“外貌协会”

人类社会经历了几次工业革命后,像发明蒸汽机这样的重大科技革新正在减速,而基于
现有功能的外观创新设计、服务创新体验与文娱创新感受,已成为多数追求的现实目标。

确实,当社会发展到不愁温饱时,我们有了更多时间品味更美、更好的东西,于是各行
各业对创意的欣赏与追求就自然而然地流露出来了。

数据分析师们也在过去几年感受到了来自四面八方的需求冲击:只会算数不懂业务的
人,不行;算出了数说不明白的人,也不行;能说明白但说不漂亮的人,行是行,就是工资
没有那么行。

Tableau作为数据可视化工具,包含了大量实用功能,能帮助数据分析师把事情说明白、
说漂亮。

下面的讲解分为两部分:一是报表的设计原则,二是视觉设计的原则。

13.1 报表的设计原则

1. 重要前提:知道为谁做报表,深刻理解他们的需求
在进行设计工作之前要确定:我们有哪些数据、我们的报表做给谁看。这两点其实是相
辅相成的,因为我们在实际的工作中面临的情况通常是以下两种:
(1)领导主动提出要查看某些数据,比如不同地理层级的销售数据,那我们就要去收
集和准备这些数据,并最终以可视化报表的形式呈现给领导;

(2)我们想通过分析已经有的数据,提供一些有价值的信息。除了生成我们日常报表
外,我们还想借助Tableau软件去探索更多信息,这时要做的就是了解现有的每一列数据字
段,从不同的查看者的角度来设计不同的可探查动态报表。

例如,如果需求是要生成用来衡量业绩的销售报表,可以采用如下思路设计:重点着眼
于当前销售额,提供与之前的销售额进行对比,提供与竞争对手的对比;添加一些可触发警
报的KPI指标,并且提供报警的可视化展示。帮助使用者深入了解销售数据,发现可能会影
响销售额的重要因素——例如店铺、供应链存在的问题。

请了解使用报表的用户,使用用户熟悉的术语设计,使用复杂程度与客户的认知水平相
匹配的报表。报表设计也没有放之四海皆可的原则,设计者需要根据自己了解的信息和自己
的专业知识设计独特的报表页面。记得为每个页面添加明确的标签,以方便客户识别。

应该在报表规划阶段就仔细考虑客户需求,并且与客户深入沟通,避免生成自以为是客
户需要的报表。随时做好重新开始的准备,整个过程是不断迭代的,不要期望一蹴而就。

完成一份好的仪表板涉及很多方面,我们将从一些基本的设计原则开始讨论。

2. 按主题设计与布局
对数据作全面的分析后,最后要呈现的报表会有很多。如没有特殊的原因,一般需要根
据查看者的组织机构来分类,如人力部、财务部、销售部和市场部等。

提供给特定部门的数据,其分析角度也会是多个的,所有内容无法放到同一个仪表板上


时,我们还需要按照进一步地细分主题和“从总览到细分的”原则去呈现分析视图。比如对



于销售部来说,他们要查看的有部门关键的KPI指标、当前与历史的销售数据、产品的销售

设设设设设设设设设设设设设
明细情况,如果有会员系统,还应关心会员的购买情况,以及相关的产品库存与物流配送情
况等。

我们用Tableau Desktop自带的“示例超市”案例来观察,它包含四个仪表板(如图
13-1所示),“概述-产品-客户-装运”基本就是按照这个原则进行主题设计与布局的。

一般情况下,单个仪表板中的图表数量不宜过多。如果添加的视图太多,看起来会缺乏
重点,没有视觉主线牵引,导致逻辑混乱。在内容较多时,更好的选择是增加仪表板的数量
而非增加仪表板的内容。
设设设设

设设

207

更多免费电子书搜索「雅书」 https://yabook.org
图13-1 “示例超市”提供的四个仪表板

3.选择合适的图表
这个问题被无数人反复强调过,但可能是因为大家对何为“合适”永远有不同的见解,
所以“我们期望合适的图表”成为一种常识,却总是在各种场景作为一种问题反复出现。虽
然“何谓合适”的看法见仁见智,但还是有一些基本的原则可以遵循,这些原则可以在开始
的时候帮助我们快速地建立起不太差的图表系统,让信息被相对广泛的受众有效吸收。

我们应尽可能以最有效的方式呈现出重要的指标。如果你经常从事数据分析工作,那你
肯定知道一个好图表的重要性,它在呈现我们的数据分析结果的同时,还能符合大多数查看
者读取报表的习惯。
Tableau

如何让数据以最好的可视化去呈现呢?接下通过示例和大家分享一些选用图表的注意事
商业分析 从新手到高手

项。

(1)慎用饼图。

饼图是许多人最熟悉的图表类型,也是使用频率最高的图表类型之一,可用来展现不同
项目或类别在整体中所占的比重。如果我们需要使用饼状图,那么尽量将饼状图的区块限制
在7个以内,如果数量过多,则用户读取数据的难度加大,标签也会比较拥挤、重叠或显示
不全,如图13-2所示。因此,如果区块数量太多,还是使用其他图表。(很多激进的可视

208
化倡导者都建议禁用饼图,但我们没有这么极端,毕竟,大多数的人(尤其是领导)喜欢饼
图,但我们绝对不建议使用3D效果的饼图,这个确实百害无一利。




设设设设设设设设设设设设设
图13-2 常见的饼图形式

(2)柱形图/条形图。

柱形图/条形图在数据逻辑的表达上几乎相同,通常适合表达多个数据项目对比的场
景,数据指标可以展示数值、频率、百分比等,如图13-3所示。如果显示类别标志很长
读,则用条形图较好。

另外,虽然柱形图也可用于展现某个字段值随着时间变化的情况,但相对于柱形图,用
设设设设


折线图更合适。图13-4所示是用条形图展示了不同产品子类别的销售情况,并按销售金额
做了排序。试想一下,这种排序如果横轴变成时间就不合适了,因为时间本身是有先后逻辑
的。 设设

209

更多免费电子书搜索「雅书」 https://yabook.org
图13-3 柱形图

在外观上来说,条形图与柱形图的区别就在于,矩形条的方向是水平还是垂直。相对于
柱形图来说,条形图中适合放置更多的数据项(人们浏览时更习惯垂直方向滚屏),也更适
合标签内容比较多的文字排版,如图13-4所示。
Tableau
商业分析 从新手到高手

图13-4 条形图

(3)折线图与面积图。

折线图与面积图都可以表示数量与时间的关系,呈现变化趋势,如图13-5所示。

210
a)折线图 b)面积图

图13-5 折线图和面积图

但需要注意的是,面积图在表示趋势变化的同时,还可以显示部分与整体的关系,如图
13-6所示。


图13-6 面积图显示了部分整体的关系



设设设设设设设设设设设设设
所以在使用图形时,首先要考虑我们要呈现的数据有着怎样的关系,然后再选择最合适
的形式。

(4)标靶图。

大家都知道,近几年数据的可视化发展得很迅速,包括我们使用的工具以及数据的展
现形式。所以我们在考虑数据的展现形式时,尊重一些传统的习惯固然重要,但接受一些新
的、更有效的表达形式也是十分必要的。

Tableau的智能图形中包含的“标靶图”,本质上可以说是一种特殊形式的条形图,通
设设设设


常以定性的绩效范围(如,差、满意和好)来比较一两个同性质的值,比如实际销售额与目
标销售额。
设设

211

更多免费电子书搜索「雅书」 https://yabook.org
按照多数人以往的习惯,在展现实际值与计划值时,通常是使用双柱图,实现效果如
图13-7所示。

图13-7 双柱图

而Tableau所推荐的标靶图效果如图13-8所示。
Tableau

图13-8 标靶图
商业分析 从新手到高手

图13-8中展示的信息有实际值、目标值、目标值的60%、目标值的80%。大家可以比
较一下标靶图和双柱图所传达的视觉信息,看看哪个更适合展示实际值与目标值。标靶图清
楚明了地展示了目标完成值值与实际完成值之间的关系,同时能够呈现出绩效范围。

有人可能认为标靶图制作复杂。实际上并没有,在Tableau中只需要一步操作就可以生
成这种图形,两条百分比范围的参考线也是自动生成的,用户可以根据自己的需要再进行编
辑。

212
虽然双柱图也可通过进一步的计算和操作添加参考线,但无论是操作的过程还是最终的
展现形式,标靶图都略胜一筹。如果我们以前是用双柱图去展示实际完成与目标值的对比,
那可以去接受这种新的展现形式。

总之,我们在选用图表时,不要因为一种图表有趣而使用它,也不要因为图表常见而拒
绝使用,人云亦云不好,但刻意追求不同也有问题,最主要的原则应该是图表是不是非常适
合想表达的主题。

4.添加文字标签
给报表起个合适的名字,对我们呈现的视图作一些文字说明,在页面中适当添加图标标
签,提示需要注意的地方,提示隐藏的交互性操作,这都非常有助于客户在最短时间内了解
报表所呈现的信息,如图13-9和图13-10所示。




图13-9 报表中醒目的名字和导航 设设设设设设设设设设设设设


设设设设

设设

213

更多免费电子书搜索「雅书」 https://yabook.org
图13-10 报表标题明确的陈述内容

上面介绍了一些仪表板设计信息传递上的常见规则,但可视化的另外一方面,属于视觉
设计的领域,很多好的视觉设计原则同样值得借鉴。下面从视觉设计的角度阐述一些常见规
则。

13.2 报表的美化
Tableau

规划好每个工作簿主题,以及其所包含的每个主题仪表板的内容后,接下来要做的就
商业分析 从新手到高手

是对仪表板进行一定程度的美化,仪表板的美化主要注意四点:(1)排版,(2)文字,
(3)用色,(4)标记。

1. 排版
主要原则归纳起来就是:对齐、有序。

报表元素的布局会直接影响查看者对报表的理解,因此视觉对象的排列布局要符合人们

214
的阅读习惯。

在报表页面上,以对称方式或精心设计的不对称方式对齐元素,这会让整个页面显得干
净、整齐。

依据长期形成的阅读习惯,人们习惯从左往右、从上往下进行浏览。应该将最重要的元
素放置在报表左上角、顶部或左侧。相关的内容要相邻,同时最好借助线条、留白或背景色
将不是最相关的内容进行适当的分隔,作分块处理。

不论内容多少,在布局时要填满整个页面。可以根据需要调节画布大小,或者同样借助
留白处理布局。对重要元素要突出设计,不论是通过颜色还是大小,以吸引读者注意力。

对齐并不是说组件的尺寸必须相同,也不是说报表上的每一行都必须有相同数量的组
件。只是说,页面采用有助于读者浏览和提高可读性的结构。套用一句设计界的话“页面要
有基本的表格结构”。

图13-11,左侧标题及备注采用的是左对齐,互相之间以及和右边的主题内容之间都有
适当的留白。右侧的主题内容,上面展示的电影图片排列有序,下面的四个图表也都很好地
做了对齐。




设设设设设设设设设设设设设
图13-11 对齐原则显示的图表

2. 文字
设设设设

影响可读性的因素很多,不过在诸多问题当中,确保可读性的基础是可读——至少要让

人看清元素本身。如果字体太过于纤细,或文字颜色与背景色对比并不明显,则视觉上的辨
识度就很低了。要发现难于识别的地方,有针对性地处理。
设设

215

更多免费电子书搜索「雅书」 https://yabook.org
我们对文字的要求当然不能仅仅停留在“可以看清”的程度。标题、宣传语使用加粗
的、花式的、装饰性的字体有它的功能性,颜色的选择也是传达着相应的信息。还有字体的
尺寸、字间距、行间距都需要细心处理。参见图13-12和图13-13所示。

图13-12 不可取的一种文字表达示式
Tableau
商业分析 从新手到高手

图13-13 文字主次分明的图表

216
3.用色
下面我们以具体的饼图来举例。

饼图的图形元素比较简单。由于饼图的几何外形是圆形,没有太多值得去精简的冗余元
素,因此,如果想把饼图做得更好看,主要功夫应花在形状的优化以及色彩的搭配上。

有些饼图会给人乱糟糟的感觉,除了上面提到的展示数量过多外,便是配色方面的原因
了。下面这些经验可以帮助大家改善饼图的外观效果:

(1)对数据进行降序排列,生成的饼图相对来说会更好看些。

这样最大的扇区便与最小的扇区相邻。但如果两者比例相差比较大,也许会让饼图显得
不太和谐,在这种情况下可以在原有排序的基础上,将最小扇区往前移动一两个位置。

(2)使用同一色彩的不同深浅、明暗的相近色是常见的方法之一,特别适合按照大小
排序的饼图,通过颜色的深浅也能直观地感知到数据的大小。这种配色方式也被称为单色系
配色。小编觉得,单色系配色虽然不会做出让人眼前一亮的效果,但也不容易出错。

(3)在单色的基础上再增加一种搭配色,形成双色系或三色系配色,这也是比较常用
的方法,常见的搭配有“蓝+灰白”“红+灰/金/黄+蓝/绿”“黄+蓝/黑”等。将主要用色进
行深浅、明暗的变化,或是在色调上增加一些偏移,形成不同的过渡色。

(4)在此基础上,还可以为扇区添加白色边框,以增加颜色区隔度。

综合上述因素,饼图配色举例如图13-14所示。




设设设设设设设设设设设设设

图13-14 一些常用的配色方案

小到一个图表的用色,大到整个报表的配色,都是如此。图13-15~图13-17是几个仪
表板的配色,供参考。
设设设设

设设

217

更多免费电子书搜索「雅书」 https://yabook.org
图13-15 商业报告配色参考

至于我们在用色时是用冷色调还是暖色调,则可根据我们报表主题的性质和个人喜好选
择。不过要叮嘱一点的就是:少用亮度较高的颜色。一是,整体配色容易变得花俏和夸张,
二是,容易造成视觉疲劳。
Tableau
商业分析 从新手到高手

图13-16 电影主题报告配色参考

218



设设设设设设设设设设设设设
图13-17 生育分析报表配色参考

4.图标
图标的应用,除了具有指示作用外,也可以让我们的视图变得更美观和更形象,如
图13-18和图13-19所示。
设设设设

设设

219

更多免费电子书搜索「雅书」 https://yabook.org
图13-18 用医疗图标丰富整体的呈现
Tableau
商业分析 从新手到高手

图13-19 用LOGO和图像标记丰富视图的呈现

需要注意的是,这些视觉对象的存在是为整体的呈现服务,要避免发生这些视觉对象分
散用户注意力的情况。

综述,好好运用以上原则,可以帮大家设计出更具美学、更受欢迎、更加实用的图表。

220
第14章
使用与管理Tableau Server:
分享意味着价值

14.1 Tableau Server概述


企业的日常运转,包含许多不同层级的决策者,他们需要应用数据结论为大量具体而微
的工作节点作出反馈并落地施行。因此,数据分析工作本身就不是一个人的事情,必须将数
据分析的结论传播出去,实现分享,辅助执行,方才真正产生价值。所有的这些,不再是一
个Tableau单机版能胜任的工作,我们需要使用Tableau Server完成有权限管控的分享。

由于Tableau Server的管理相对简单,因此,许多企业把这部分工作放在了业务部
门自己手里。也就是说,原本埋头只做数据分析的你,随时有可能被老板升级为“BT”
(Business Technology),这可是个褒义词,指的是既懂业务又懂技术的“大拿”们。

Tableau Server 安装后,它会成为用户所需的数据分析管道核心组件。具体来说,


Tableau Server既可以存储Tableau Desktop中设置的数据提取文件,又能够实时连接到数据
源。

Tableau Server 未被构建为容纳静态本机数据文件的数据仓库服务器。事实上,如果使


用Tableau Server作为传统数据仓库,则无法高效利用投资。当涉及到数据存储时,建议在
Tableau Server上托管数据提取。数据提取通常是机构中较大数据源的子集,建议通过计划
在非工作时间进行数据提取刷新,从而减轻工作时间数据源的负担。

更多免费电子书搜索「雅书」 https://yabook.org
若要提高可视化制作和交互的性能,建议针对给定部门或项目的必要字段来筛选源数
据,从而优化数据提取。(数据提取可能需要大量资源。如果组织计划大量使用数据提取,
请在Tableau软件自带的帮助文件里搜索“数据提取”,进一步查看针对数据提取进行优化
的帮助主题)

Tableau Server 还提供了对实时数据源的直接授权访问,允许用户针对各种连接的数据


源构建和运行复杂的筛选查询。对于此方案,需要对组织中的数据源和云上的数据源进行高
性能的网络访问。可以通过缓存配置和指定初始 SQL 命令适当地调整大小,来优化实时数
据连接的性能。

14.2 Tableau架构概述
Tableau Server 是一个进程集合,这些进程共同为用户提供一个完整的自助服务分析平
台。图14-1是Tableau Server的一个高级架构视图。
Tableau

图14-1 Server架构图
商业分析 从新手到高手

多个服务器进程(上图蓝色部分)在各个层共同提供服务。网关进程是将所有 Tableau
客户端的流量重定向到群集中的可用服务器节点的组件。

数据服务是提供共享元数据管理、受管理数据源和内存数据服务的逻辑分组。后台程
序、数据服务器和数据引擎进程是为数据服务提供支持的基本进程。

分析服务由 VizQL 和缓存服务器进程组成,提供面向用户的可视化和分析服务以及缓存


服务。共享和协作以及内容管理服务由应用程序服务器进程提供支持。诸如用户登录、内容

222
管理(项目、站点、权限等)和管理活动之类的核心Tableau Server功能,由应用程序服务
器进程提供。

所有上述服务均使用并依赖于存储库进程。存储库进程包含结构化的关系数据,如元数
据、权限、工作簿、数据提取、用户信息和其他数据。文件存储进程在整个群集中启用数据
提取文件冗余,并确保可以在所有群集节点上本地提供数据提取。在较重的负荷下,可以在
整个群集中本地提供数据提取文件,以便更快地进行处理和呈现。

Tableau 的架构很灵活,几乎可以在任何地方运行。可以在本地、私有云或数据中心、
Amazon EC2、Google 云平台或 MS Azure 上安装 Tableau Server。Tableau 分析平台还
可以在虚拟化平台上运行。我们建议您遵循每个虚拟化平台的最佳做法,以确保Tableau
Server性能最佳。

14.3 用户访问架构
Tableau Server 也是一个基于 Web 的协作平台,用户可以在其中进行连接以共享、查
看来自各种设备的数据可视化项和数据源,并与其进行交互,如图14-2所示。这要求本地
受保护网络中的 Tableau 用户可以访问 Tableau Server。也可以将数据可视化项的访问权限
扩展到桌面用户、移动用户以及外部经过验证的 Web 用户。




使使使使使
使
使
使
图14-2 Tadleau的用户访问架构
使
使
使
使使
使
Tableau Server集成了以下用户身份验证解决方案:Active Directory、SAML、OpenId
使
使
使
使
使使使使使使使使

和 Kerberos。
使
使

由于通过Tableau Server管理的大多数数据具有高度敏感性,并且Tableau Server需要访


问内部数据存储,因此Tableau Server必须在受保护的网络中运行。Internet 的已验证访问
被配置为通过反向代理或 VPN 解决方案连接到 Tableau Server。

223

更多免费电子书搜索「雅书」 https://yabook.org
一些组织会在公共网页中嵌入 Tableau 视图,或者在内部网络上的通用 Web 服务器上
为内部用户嵌入这些视图。

Tableau Server 可以配置为使用已验证或匿名访问来支持这种情况。对于授权访问,用


户只能查看他们有权查看的基础数据,因此可以使用通用 Web 服务器配置受信任的票证。
在这种情况下,Tableau Server 会授予嵌入视图中的基础数据的访问权限。此方案使您能够
在 DMZ 中或受保护的网络外部的 Web 服务器上托管交互式数据可视化项。

对嵌入式 Tableau 视图的匿名访问,要求您为Tableau Server启用“来宾用户”。来宾


用户还要求您根据正在运行的核心数,而不是指定的用户(交互者)模型来许可 Tableau
Server。

14.4 大小调整和可扩展性
根据组织的大小和数据使用情况,可以纵向或横向扩展Tableau Server。
yy 当纵向扩展Tableau Server时,可以向单个服务器添加硬件资源。例如,可以增加运
行Tableau Server的计算机的内存和处理能力。
yy 当横向扩展Tableau Server时,将添加计算机(或节点)。若要创建具有故障转移功
能的高可用性部署,至少需要三个节点。例如,在两个节点上运行大多数 CPU 密集
型服务器进程,第三个节点用于网关和协调控制器服务。
无论是纵向扩展还是横向扩展,都可以通过配置运行的服务器进程的数量和类型来选择
性地分配资源。如果组织具有大量数据并创建大量数据提取,则可以增加专用于刷新和存储
数据提取的进程数。或者,如果希望针对繁重的用户负载进行优化,则可以增加专门用于响
应用户请求的进程数。此外,可以将Tableau Server集成到业界标准的网络负载平衡器中,
以进一步优化服务器来满足用户请求。

14.5 Tableau Server管理模式


Tableau
商业分析 从新手到高手

Tableau Server 被设计为支持具有两个高级管理员的管理方案:服务器管理员和站点管


理员。在小型组织中,这些角色可能由同一个人或团队来承担;而在较大的组织中,角色通
常由不同人承担。

服务器管理员是维护和部署异构服务器解决方案的 IT 专业人员。服务器管理员的基
本职责范围可能包括联网、硬件调整和维护、安全和访问以及管理用户和目录服务。随
Tableau Server一起为服务器管理员提供的工具和文档,支持这些核心服务器 IT 领域。

224
站点管理员是特定于Tableau Server或 Tableau Online 部署的管理角色。Tableau 站点
管理员基本上关注的是数据内容。站点管理员管理用户及其对项目、工作簿和数据源的访问
权限。

14.6 Tableau Server管理工具


Tableau Server 包括用于管理系统的多个工具集:
yy Tableau Server 管理员页面:这是安装在每个Tableau Server实例上的、基于 Web
的管理站点。在管理员页面上执行的任务,是服务器和站点管理员的日常任务。
yy 服务器相关任务包括:创建站点和站点管理员帐户、导入用户(可选)、设置目录服
务同步、设置数据提取刷新计划、监视服务器性能和使用情况以及其他全局设置。
yy 与站点相关的任务包括:管理内容和分配权限、运行数据提取刷新、创建组和项
目、监视站点活动、(可选)添加用户和其他内容相关任务。
Tableau Server 管理员页面的所需权限基于角色。这些角色由Tableau Server生成和管
理。
yy Tableau Server 配置实用工具:这是服务器范围配置的主要实用工具。在初始配置后
很少会重新访问使用此实用工具进行的配置。例如:SSL、订阅、数据缓存、服务帐
户、SMTP 警报、用户身份验证和单点登录配置全都使用该实用工具来执行。必须使
用具有本地服务器管理员权限的帐户,才能运行Tableau Server配置实用工具。
yy Tabadmin:一个命令行工具,允许配置多个Tableau Server组件。Tabadmin 默认情
况下与Tableau Server一起安装。


yy Tabcmd:可以在 Windows 计算机上使用Tabcmd 命令行实用工具创建脚本,以自




动执行Tableau Server站点上的管理任务。例如,使用Tabcmd创建或删除用户、项

使使使使使
目和组。
yy REST API:利用Tableau ServerREST API,可以编写程序以通过 HTTP 来管理和更
改Tableau Server资源。此 API 可以简单访问Tableau Server上的数据源、项目、工
作簿、站点用户和站点背后的功能。可以使用此访问创建自己的自定义应用程序,或
使
使
使
者编写交互脚本以便与Tableau Server资源进行交互。
使
使
使
使使
使
使
使
使
使
使使使使使使使使

14.7 安全性
使
使

作为连接到可能是高度敏感的数据的应用服务器,Tableau Server 支持和实施许多工业


安全标准。服务器管理文档包括:用户身份验证、授权、数据安全和网络安全的最佳实践和
实施。虽然默认安装是安全的,但我们依然建议遵循官网的安全强化检查表进一步锁定部署。

225

更多免费电子书搜索「雅书」 https://yabook.org
14.8 Tableau Server部署概要
最低硬件要求和推荐配置适用于运行Tableau Server的所有计算机,包括物理硬件和虚
拟机 (VM)要求。

1.最低硬件要求
要安装或升级Tableau Server的计算机必须满足最低硬件要求。如果安装程序确定计算
机未满足以下要求,将无法安装 Tableau Server。这些最低要求适合于对Tableau Server建
立原型并进行测试的计算机。这些要求适用于单节点安装,以及分布式安装中的每台计算
机。

最低硬件要求如下。
yy CPU:两个内核。
yy 内存:8 GB。
yy 可用磁盘空间:15 GB。
可用磁盘空间,是按Tableau Server安装程序解压缩之后剩余空间计算的。安装程序使
用约 1 GB 空间。内核数基于“物理”内核。物理内核可能表示实际服务器硬件或虚拟机
(VM) 上的内核,将忽略超线程。

2.最低硬件推荐配置
见表14-1。

表14-1 最低硬件推荐配置

安装类型 处理器 CPU RAM 可用磁盘空间


单节点 64 位 8 核,2.0 GHz 或更高频率 32 GB 50 GB
多节点和 请与 Tableau 联系以获得技术指导。节点必须满足或超过最低硬件推荐配置,运行后台
企业部署 程序的节点除外。在这些节点中,4 个内核是可接受的
Tableau

对于生产用途,您在其上安装或升级Tableau Server的计算机至少应满足或超过最低硬
商业分析 从新手到高手

件推荐配置。这些推荐配置为一般性配置。Tableau Server安装的实际系统需求可能因许多
因素而异,其中包括用户数以及数据提取的数量和大小。如果安装程序确定计算机未满足以
下建议的要求,将收到警告,但可以继续进行安装过程。

3.分布式服务器部署实现高可用性的硬件指南
故障转移——三台计算机:若要配置一个群集来为数据引擎和存储库进程提供故障转移

226
支持,至少需要三台计算机或虚拟机。一台用作主 Tableau Server,两台用作 Tableau 工作
服务器节点。

注意:如果在双节点群集上安装 Tableau Server,则会显示一条消息,提示最多只能使用


一个存储库实例,并且高可用性和故障转移在双节点配置中不可用。在双节点群集中,如果
其中一个节点出现故障,则Tableau Server可能无法正确运行。

故障转移和多网关支持——三台计算机和一个负载平衡器:若要配置提供上述功能并支
持多个网关的群集,至少需要三台计算机或虚拟机和一个位于群集前端的负载平衡器。

高可用性——四台计算机和一个负载平衡器:要配置高可用性,不仅需要上面描述的资
源,而且还需要一台计算机作为主Tableau Server的备份。

主计算机:如果配置高可用性,则主Tableau Server计算机和备份主计算机可以运行很
少的Tableau Server进程,或不运行任何Tableau Server进程。因此,运行主计算机和备份主
计算机的计算机,无需具有与运行工作服务器的计算机一样多的内核。不过,将需要足够的
磁盘空间进行备份,因为在数据库备份和还原过程中将会使用主计算机。除了备份文件所需
的空间量外,还需要大约相当于备份文件大小 10 倍的临时磁盘空间(如果备份是 4 GB,则
应有大约 40 GB 的可用临时磁盘空间)。




使使使使使
使
使
使
使
使
使
使使
使
使
使
使
使
使使使使使使使使

使
使

227

更多免费电子书搜索「雅书」 https://yabook.org
第15章
Tableau的新功能与新版本:速度与激情

15.1 Hyper介绍
Hyper是一个高性能的数据库系统。Tableau于2016年底将其购入,据说是因为Hyper是
当时最新、最快的数据库系统。经过一段时间的整合,Tableau采用Hyper的技术精华全面
更新了自己的底层技术架构,以期达到提速的目标:用户能更快地打开并与Tableau Server
上的报表互动。“从2018年所发布的10.5版本开始,Hyper技术与Tableau数据引擎集成在
一起,但用户从操作和界面上并没有感受到特别之处,只是数据提取后存储文件格式变为
Hyper文件结构,如图15-1所示。目前的读者们多数安装的是Tableau10.5及以上版本的软
件,大家可能并无特别的感受,但是对于2018年之前就用过tableau public网站的中国用户
而言,Hyper被用于tableau public网站之后,我们在中国打开文件与在线拖拽的速度快了许
多。

Hyper是Tableau新的内存数据引擎技术,对大数据的采集速度、分析、查询速度进行了
优化。新的数据引擎利用所有可用的CPU和内存资源来提供最快的响应时间。使用新的数据
引擎,可以更快地分析大型数据集。

Hyper技术具有以下优势:
yy 更快地数据提取:使用Hyper技术,提取速度几乎与源系统提供数据一样快,不需要
等待。
yy 支持更强的提取:在此版本之前,可能无法将所有数据都提取到一个文件中。采用新
的Hyper技术,可以将大量的数据作为单个提取物包含在一个本地文件内。
yy 更快地分析数据:在许多情况下,可以更快速地分析大数据集的数据,或者计算复杂
的工作簿。
yy 改进了大型用户部署的可伸缩性,并且更好地处理并发:Hyper旨在处理许多用户同
时查询单个数据集的情况。它能够动态地调整和分配资源,以优化查询性能。

图15-1 Hyper格式的数据

15.2 Maestro数据处理
数据分析工作往往在灵感一现的时候最有效率。可以说,如果数据干干净净的摆在我们


面前时,每个人都能激情四射的拖拽Tableau快速完成数据探索,识别关键问题。但是绝大



多数数据分析者的日常是在捕捉到些许灵感后,先花费70%的时间用于数据清洗:识别有效

变量、找出重要的单变量与联动变量、处理缺失值和异常值等,最后才正式进入分析过程。

TTTTTTT
Maestro是一款数据探索和数据准备产品,它将帮助用户以可视化的方式快速地进行数据探
索和分析。前面提到过,Maestro这个词语有“音乐大师”的意思,大概是希望Mastro的加
T
入,能够帮助数据分析师们保留更多的灵感与激情,将分析过程一步接一步地快速完成,正 T
T
如交响乐队的指挥,一曲接一曲地演奏下去。 T
T
T
1. 系统配置 T
T
T
Maestro只支持64位操作系统,Windows和Mac系统都可以安装。要求的配置分别如下。 T
T
Windows系统要求: T
T
T
yy Microsoft Windows 7或Windows 2008 R2,及以上。

229

更多免费电子书搜索「雅书」 https://yabook.org
yy 英特尔酷睿i3-6100处理器,及以上。
yy 8GB内存。
yy 1366×768屏幕分辨率,及以上。
Mac系统要求:
yy iMac/MacBook 2009计算机,及以上。
yy OSX 10.10,及以上。
yy 8GB内存。
yy 366×768屏幕分辨率,及以上。

2. 功能简介
Maestro目前具有数据清洗和数据融合两大块功能模块。Maestro功能区分布如图15-2
所示。
Tableau
商业分析 从新手到高手

图15-2 Maestro功能区分布

230
(1)数据融合:Maestro和Tableau一样,支持多重数据源的连接。通过可视化拖动方
式实现多数据源间的数据融合。

例如,连接Tableau自带的超市销售文件Sample-Superstore.xls,则可以这样:单击数
据连接面板中的add按钮,定位到Tableau安装目录中的defaults\datasources文件夹,选择
“sample-Superstore.xls”文件。添加相关表后,拖动表可以创建连接或者合并,这里选择
new join创建连接,见图15-3。

图15-3 软件的表连接操作

创建连接后,可以在下面的面板中调节连接类型。单击字段的不同值,可以在预览区域


动态观察数据。



(2)数据清洗:Maestro提供了常见的数据处置功能,通过在流中添加一个clean步骤

骤可以使用这些功能。在字段上单击下拉菜单,可以看到包含了字段排除、值过滤、字段

TTTTTTT
值切分、替换和重组、重命名等常见字段的操作。我们连接第5章的文本文件“会员分群数
据”,添加一个clean步骤,在下面字段区域下拉菜单上可以看到提供的功能。例如,选择
T
菜单Group and Replace→Manual Selection命令(如图15-5所示)手工建立一个小家电组。 T
T
(3)数据清洗——模糊识别:Maestro可按变量的拼写或发音迅速融合多个相似变 T
T
量,以实现变量的自动模糊识别与归类。如图15-6所示,在品牌上单击菜单Group and T
T
Replace→Common Characters命令,可以看到软件将根据内容的相似度进行自动分组。 T
T
Maestro使得用户可以用可视化方式以轻松地准备自己的数据。用户可以即时查看建立 T
T
好的联接、并集和各种计算及其计算效果预览,确保在开始分析之前准备好需要的数据。 T
T
T

231

更多免费电子书搜索「雅书」 https://yabook.org
图15-4 在预览区域动态观察数据
Tableau
商业分析 从新手到高手

图15-5 建立小家电组

232
图15-6 自动对记录进行分组

15.3 Tableau的最新版本介绍
2018年5月,Tableau发布了全新的产品组合,不仅将数据准备产品Maestro融合到了
新版本当中,而且全新改变了版本序列命名的方式:原来的Tableau 10.5至此绝版,最新的
Tableau软件,一律使用“年份+序号”的方式来命名。例如Tableau 2018.1。

对于已经使用Tableau软件1-2年的职场人士来说,非常熟悉Tableau Desktop与Tableau
server:Desktop负责数据分析与可视化,Server负责分发与管理Desktop所完成的数据成果。

最新发布的Tableau 2018.1由Creator、Explorer和Viewer三类产品组成:




TTTTTTT
T
T
T
T
T
T
T
图15-7 三类产品组成 T
T
T
Tableau Creator包含大家所熟悉的Tableau Desktop和Tableau Desktop,额外增加的 T
T
“Tableau Prep”,其实正是15.2中所介绍的数据准备产品Maestro的新名字。为了方便部 T
T
分好奇的读者追本溯源,按图索骥,我们保留了前文这段Maestro介绍。

233

更多免费电子书搜索「雅书」 https://yabook.org
Tableau Prep融合进入Tableau后,将有效加速业务人员完成数据准备的过程。它为数据
准备过程提供了自定义的可视化体验,能够快速完成一些常见而又复杂的任务,例如联接、
并集、透视和聚合;能够选中某个值并且直接编辑;以及应用智能算法,比如使用模糊聚类
算法完成高度重复的按拼音进行分组,清理特殊标点等。

依照Tableau同期发布的商务政策,现有的 Tableau Desktop 客户,可在未来两年内免


费使用 Tableau Prep。

Tableau Explorer代表了商业分析的发展趋势:“做报表的人”与“看报表的人”越来
越趋近为同一群人,再也没有什么IT壁垒将我们分开。从Tableau 2018.1开始,人们可以在
浏览器中开始数据分析。一位正在看报表的人手痒了,觉得现有的分析做的不好,正好,
自己可以大展拳脚了:直接可用浏览器连接 20 多种数据源,包括 SQL Server、Amazon
Redshift 或本地的Excel,在眼前的报表里加入新数据、创建更合心意的商业分析与可视化
仪表板、发布到Tableau Server上与其他人分享。

Tableau Viewer适合纯粹看报表的人使用,人们依然可以通过点选或拖拽来查看同事们
做好的分析,只是无法连接数据源,创建自己喜欢的新分析,并且发布于Server上。考虑到
企业里大多数用户可能确实不需要自己动手做分析,Viewer是一项很实用的产品配置,它将
有效平衡用户使用习惯的差异,并且降低软件的总体拥有成本。

萧岚:时间过得真快,我居然进入数据分析这一行快十年了。刚才回想了一下2008年第
一次接触Tableau的感受,当时应该是非常兴奋的,现在竟然不太记得第一次都用什么案例做
的分析了。大概是最近钻研Python把脑袋搞晕了!

大威:哈哈,是吗,萧岚你都有晕的时候!你看我才晕菜了呢。年底这么忙,公司居然
要求全部换成苹果电脑,折腾死我了。虽然现在Tableau对IOS支持的不错,可我有一堆老版
本的Tableau模板文件格式乱了,要用的时候得一个个调!我这知识网红的道路还没开始,就
快要被扼杀了。一直没有勇气出手,刚想伸出爪子,开播聊点人工智能,发现大家聊上量子
计算了,我是追也追不上啊!

鹏辉:嘿,我的大神师父们,都慢点跑成不成,你们别这么努力的学习呀,让我们这些
Tableau

刚开始干的兄弟姐妹们能望望项背啊!

娜娜:就是就是,别跑太快了,拉着我们点,咖啡管够哈!对了,转眼就到年底了,估
商业分析 从新手到高手

计大家都比较忙,春节前难得聚起来了。明年咱们继续学点啥呢?

大威:是啊,春节前忙死了,好些个项目要收尾,娜娜你想学啥啊?Tableau加Python?

鹏辉:这太明显了,居然只问女生……威哥,你问错了吧,女孩子不那么喜欢Python吧!

萧岚:臭小子,我刚说完自己正在学Python,你就来这么一句!请客请客,给我们女同
胞每人来一份冰淇淋,安慰我们受伤的心……

娜娜:哈哈,Python+冰淇淋,我都OK,严重同意!
234

You might also like