Yhhxdzs

用画像：方论与工程化解决方
宏田　著
ISBN：978-7-111-63564-2
本版由机工出版社 2019年出版，电子版由华章分社（北

华章文有限公司，北奥博行有限公司）全球范
内制与行。
版权有，权究
客服：+ 86-10-68995265
客服：service@bbbvip.com
官方：www.hzmedia.com.cn
新博 @华章数媒
公号华章电子（号：hzebook）
目
前言
1章　用画像础
1.1　用画像是么
1.1.1　画像介
1.1.2　
1.2　数据
1.3　主要覆盖
1.4　开阶程
1.4.1　开上程
1.4.2　阶关出
1.5　画像应用的落
1.6　用画像
1.6.1　景介
1.6.2　相关元数据
1.6.3　画像表设计
1.7　定画像
1.8　本章小
2章　数据
2.1　用属度
2.1.1　常见用属
2.1.2　用别
2.2　用行为度
2.3　用消费度
2.4　风险控制度
2.5　社属度
2.6　其常见划分方
2.7　命名方
2.8　本章小
3章　数据存储
3.1　Hive存储
3.1.1　Hive数据库
3.1.2　分区存储
3.1.3　
3.1.4　ID-MAP
3.2　MySQL存储
3.2.1　元数据理
3.2.2　监控预警数据
3.2.3　集存储
3.3　HBase存储
3.3.1　HBase 介
3.3.2　应用景
3.3.3　工程化
3.4　Elasticsearch存储
3.4.1　Elasticsearch 介
3.4.2　应用景
3.4.3　工程化
3.5　本章小
4章　数据开
4.1　计开
4.1.1　近30日购行为
4.1.2　最近来访
4.2　规则开
4.2.1　用价
4.2.2　用度
4.3　掘开
4.3.1　景
4.3.2　特征取及开
4.3.3　文本分词理
4.3.4　数据理
4.3.5　文本TF-IDF权重
4.3.6　朴贝斯分
4.4　计开
4.4.1　建
4.4.2　Kafka 介
4.4.3　Spark　Streaming集成Kafka
4.4.4　开及工程化
4.5　用特征库开
4.5.1　特征库规划
4.5.2　数据开
4.5.3　其特征库规划
4.6　权重计
4.6.1　TF-IDF词空
4.6.2　时衰减数
4.6.3　权重
4.7　相度计
4.7.1　景
4.7.2　数据开
4.8　组计
4.8.1　应用景
4.8.2　数据计
4.9　数据服务层开
4.9.1　推送至营
4.9.2　接调用服务
4.10　GraphX 计用
4.10.1　计理论及应用景
4.10.2　数据开
4.11　本章小
5章　开调
5.1　数据斜调
5.2　并小文件
5.3　存数据
5.4　开表
5.5　本章小
6章　程调度
6.1　crontab命令调度
6.2　Airflow工平台
6.2.1　础
6.2.2　Airflow服务成
6.2.3　Airflow安装
6.2.4　主要功
6.2.5　工调度
6.2.6　本实
6.2.7　常用命令行
6.2.8　工程化调度方
6.3　数据监控预警
6.3.1　监控预警
6.3.2　服务层预警
6.4　ETL 常排
6.5　本章小
7章　用画像化
7.1　即时询
7.2　视与询
7.3　元数据理
7.4　用分功
7.5　分功
7.6　本章小
8章　用画像应用
8.1　营分
8.1.1　分
8.1.2　用分
8.1.3　分
8.1.4　斗分
8.1.5　客服话术
8.1.6　特征分
8.2　准营
8.2.1　短 / 件营
8.2.2　效分
8.3　化推荐与服务
8.4　本章小
9章　实详解
9.1　风控诈预警
9.1.1　应用景
9.1.2　用画像切入
9.2　A/B 效试
9.2.1　景
9.2.3　效分
9.3　用生命期划分与营
9.3.1　生命期划分
9.3.2　不同阶的用触略
9.3.3　画像生命期的应用
9.3.4　应用
9.4　高价用实时营
9.4.1　项目应用景
9.4.3　HBase应用景小
9.5　短营用
9.5.1　景
9.5.2　画像切入及其应用效
9.6　Session行为分应用
9.6.1　关用行为分
9.6.2　景
9.6.3　特征建
9.6.4　分方与论
9.7　效监报表搭建
9.7.1　景
9.7.2　理
9.7.3　动报表件
9.8　用特征库目
9.8.1　景
9.8.2　应用方及效
9.9　本章小
附　用画像项目规划文
前言
为么写这本
我曾知 “数据智 ”专下面不定期关用画像的文

章，也曾知开设几期live直播，还曾智课平台开
设列课“用画像解决方 ”。同行对画像兴的
朋友时，我现家虽来、草、零、互不
同行，公司对用画像领有建设需，且家对
、效率（ETL）、监控、实时计、画像化、
务应用景应用方方面有进一步解的兴。以我对
这年用画像的验、的“ ”进行理，为数据开
、数据分、运营、用研究岗位的工提一参。
写这解决方的一晚，我有时，科时代
飞速展，如有一我不这一行，该么来年斗
的时光？2019年，我 3次从0到1开始搭建用画像，从离
开、用数据分、ETL调度、计开，到数据服务
层、应用画像数据服务务方、获务的馈，这一
来，程是痛的，收获是富的。斗的日子，望一步
步的，谨以此不昼前的日子致敬。
本特
开始用画像的时我也不知从下，市面上介

Hive、Spark、HBase、MySQL、数据库数据相关术的
，是介用画像搭建开的少，甚至有。有相关
项目验的况下，我不知如这数据组件来搭建用
画像。直到这两年，我一开画像，一理，
最终成本。
本助数据库实现一套用画像的方。从实际工程

出，务景，内容盖开离理计的及
计，为读的分、开、搭建用画像，并助该用
画像为运营制定运营用的略提端到端的解决方。
一套好的解决方需要包以下几层面。
1）层：画像的层，本首先介画像数据库

的，进一步介数据存储的术，么景下用
Hive、MySQL、HBase、Elasticsearch 工具存储数据，用开
、计开相应数据开层面的内容，以及整项目的开
程阶的关出。
2）层：介整方是如运来的。本主要涉及画像

的程调度、数据库务的。
3）务层：包的前后端互以及如这套应用

务服务层面。本用画像化介端画像
的“代码”层面是如进行互操的。
4）方价：包上后如服务务景生务价
以及有待进一步完的方。
以上几层面的内容成一套完整的用画像解决方，这也

是本章覆盖的全。
数据的最终目的是出数据库，应用到务营

来驱动营收。
我学习数据库的时学 Kimball的《数据库工具》，其

关数据库的34 子的介对我，其对如解决
特定题并成化有着的方论与解决方。虽面对
具题的理方是且富样的，是定的化有
利速到突破，成好的开端。
本可以帮助读用画像领成一种化，面对

一具项目时不无从下。如建立？
包？如设计存储画像的表？如开？画
像涉及数据存储工具？如数据到服务层？如
对画像进行监控？如对整画像进行调度？如画像
服务务景来驱动？这是画像的子。
主要章及内容
本共9章，章具内容如下：
1章：主要讲用画像的础知识，包搭建用画像需要

覆盖的，开阶程，阶的关出，以及数据库
、表的设计内容。读本章可以帮助读成建用画像
的一整化。
2章：务设定，本章对景，从常用的用

属、行为、消费、风险控制这4 度设定。本章提的
可盖分刻画用画像的应用景，对具应用，读
可根据公司务特进行对的补充。
3章：讲解相关数据的存储，包 Hive存储、MySQL存

储、HBase存储 Elasticsearch存储。不同的存储方适用不同的
景务需要。
4章：也是本的重章，介的数据及相关本的
开是用画像建工的重。本章讲解对常见的计、规则
、掘、计以及用特征库与用相关的数据的
开，还进一步介如计数据、数据到服务层的
开。 GraphX 计用 2度关熟的介如度掘
用的关关。本章对一小进行详细的讲解，并附有
套的代码计程。
5章：讲解开程常见的数据斜调、对小文件的读

取、存数据、开表调工。
6章：讲解如用开 ETL工具Airflow实现画像相关
务的工程化上调度，以及对数据的监控预警调度常的排。
7章：画像化是数据从数据库务服务的重要环，

画像化可务用工具来分用，将务上定义的用
应用到务提服务。本章为数据、务
提解决方的。
8章：介用画像的应用景，包营分、准营、
化推荐应用方，方务、理、数据分师更好
解用、触用。
9章：景化介用画像实际应用的8 ，展

现用画像为一种分、触用的工具实际务上的应用方
应用程。
主要读对象
· 理：由岗位质对术不是特别熟，可重关

1、2、7、8、9章的内容。
·数据分师：可以从度对用及用进行分，可重

关 1、2、3、7、8、9章的内容。
·运营：可重关 2、8、9章的内容，解画像涉及

的、应用景及应用略。
·数据开：本主要站数据开的角度对整画像

进行化介。数据开可完整读本章的内容。
·市：助画像解用的特征以及运营用
的略方，可重关 2、8、9章的内容。
勘误支持
由平有限，难免存疏，请读评正。
为此，读可（892798505@qq.com）
（administer00001）馈有关题，我将尽全力为读进行解。
致谢
谢父对我一成的支持。谢机工出版社华章公司的

杨福川师李师，这是我二次与两位师，次与
是么；谢为本写推荐的朋友，的专建议让
本更加。最后，谢去一年己的一分入，不断积
，将数据用画像领的工程化实现应用方成。
1章　用画像础
1.1　用画像是么
互步入数据时代后，用行为给的服务带来
一列的改变重，其最的变化，用的一切行为
面前是可“ ”“分 ”的。内存的原始数据
种务数据，这是营动的真实记，如更加有效利用这
数据进行分评，成为更数据景的题。
随着数据术的入研究与应用，的关日益如利
用数据来为细化运营准营服务，要细化运营，首先
要建立本的用画像。
1.1.1　画像介
用画像，即用化，收集用的社属、消费
习、好特征度的数据，进对用特征属进
行刻画，并对这特征进行分、计，掘价，从
象出用的全貌，如 1-1 示。用画像可看应用数据
的根，是定广放与化推荐的前条件，为数据驱动运营
奠定础。由此看来，如从数据掘出有价的越
重要。
1-1　用化
数据已兴年，其对互公司的应用来说已如、

电、空对的生一样，成为不可的重要组成分。从
础设施建设到应用层面，主要有数据平台搭建及运理、数据库
开、上层应用的计分、报表生成及可视化、用画像建、
化推荐与准营应用方。
公司数据础建设上入，也不少报表，
务觉数据报表么区别，也数据对务
有么帮助价，究其原，其实是“数据静止数据库，是
的”。
用画像可以帮助数据“ 出”数据库，对用进行
化推荐、准营、化服务样化服务，是数据落应用
的一重要方。数据应用的层划分如 1-2 示。
1-2　数据应用的层划分
1.1.2　
用画像建其实就是对用 “ ”，从对用的方
来看，一分为3种（如 1-3 示）：① 计；②规则
；③机学习掘。
1-3　
下面我介这3种的的区别：
1. 计
这是最为础也最为常见的，如，对用

来说，其别、年龄、市、星座、近7日时、近7日
数、近7日次数字可以从用册数据、用访、消费数据
计出。该成用画像的础。
2.规则
该用
行为及确定的规则生。如，对平台上“消
费 ”用这一径的定义为“近30 易次数≥2”。实际开
画像的程，由运营对务更为熟，数据对数据的
、分布、特征更为熟，此规则的规则由运营数
据共同协确定；
3.机学习掘
该机学习掘生，用对用的属
行为进行预判断。如，根据一用的行为习判断该用是男
还是女、根据一用的消费习判断其对的好程度。
该需要掘生。
项目工程实，一计规则的即可以应用
需，开占有比。机学习掘用预
景，如判断用别、用购好、用。一
，机学习开期，开成本高，此其开占比
小。
更多书籍访问：www.j9p.com
1.2　数据
整工程化方，赖的础设施包 Spark、Hive、
HBase、Airflow、MySQL、Redis、Elasticsearch。除去础设施，
主还包 Spark Streaming、ETL、端3 重要组成分。
1-4 示是用画像数，下面对其进行详细介。
1-4　用画像数
1-4下方虚为常见的数据库ETL加工程，也就是将

日的务数据、日数据、数据 ETL 程，加工到数据库
对应的ODS层、DW层、DM层。
的虚即为用画像建的主要环，用画像不是生

数据的，是对数据库ODS层、DW层、DM层与用相关数
据的二次建加工。 ETL 程将用计写入Hive，由
不同数据库有不同的应用景，后需要进一步将数据同步到MySQL、
HBase、Elasticsearch 数据库。
·Hive：存储用计、用计、用特征
库计。
·MySQL：存储元数据，监控相关数据，导出到务的数
据。
·HBase：存储上接实时调用数据。
·Elasticserch：支持数据的实时询分，用存储用

计、用视分需的用数据（由用计
、用视分的条件化成的SQL语句条件嵌套为杂，
用Impala 行也需费时）。
用数据 Hive 加工完成后，分 Sqoop同步到

MySQL数据库，提用 BI报表展示的数据、视分数据、
服务数据；另一分同步到HBase数据库用的上化推
荐。
1.3　主要覆盖
搭建一套用画像方整来说需要虑8 的建设，如 1-
5 示。
·用画像础：需要解、明确用画像是么，包

，数据库是么样子，开程，表设计，ETL设计。
这是，方的规划，有明确方后好项目的
排期入预。这对评开阶重要关出
非常重要，重可看1.4 。
·数据：根据务理，包用属、用行为、

用消费、风险控制度的。
· 数据存储：相关数据可存储 Hive、MySQL、HBase、

Elasticsearch 数据库，不同存储方适用不同的应用景。
· 数据开：用画像工程化的重，包计、规
则、掘、计的开，以及计功的开，
画像数据务的，提接服务开内容。
1-5　用画像主要覆盖
·开调：加工、计本上调度后，为
短调度时、障数据的稳定，需要对开的本进行代重
、调。
· 程调度：加工、计、同步数据到务、

数据监控预警本开完成后，需要调度工具整套程调度
来。本讲解 Airflow这开 ETL工具调度画像相关务本上
的应用。
·用画像化：为让用数据更好服务务方，需

要以化的应用务上。化的主要包视、
用询、用分、视分。
·用画像应用：画像的应用景包用特征分、短、
件、站内、Push消的准推送、客服对用的不同话术、对
高价用的速退货退 VIP服务应用。
本内容安排也分别这8 的内容来展开。方读更
解用画像是如从0到1搭建来并提服务、驱动用实
现营收的。
1.4　开阶程
本主要介画像开上的程以及阶的关出。
1.4.1　开上程
用画像建设项目程，如 1-6 示。
1-6　用画像建设项目程
一阶：目解读
建立用画像前，首先需要明确用画像服务的对象，

再根据务方需，明确未来建设目用画像分后的预
期效。
一言，用画像的服务对象包运营数据分。

不同务方对用画像的需有不同的重，就运营来说，
需要分用的特征、定位用行为好，内容的化
推送以提高击化率，以画像的重就落用行为
好上；就数据分来说，需要分用行为特征，好用
的预警工，还可根据用的消费好更有对的准营
。
二阶：务分解与需调研
一阶的需调研目解读，我已明确用画像
的服务对象与应用景，接下来需要对服务对象的需重，
现有务 “数据字典”规实的关关
，明确分度。就后文将要介的言，需要从用属画
像、用行为画像、用好画像、用好画像角度去进行
务建。
三阶：需景讨论与明确
本阶，数据运营需要根据与需方的，出
用画像需文，该文明确画像应用景、最终开出的
内容与应用方，并就该文与需方并确认无误。
阶：应用景与数据径确认
三阶明确需景与最终实现的度、
后，数据运营需要务与数据库已有的相关表，明确
与务景相关的数据径。该阶，数据运营方需要出
用画像开文，该文需要明确应用景、开的、
涉及的数据库与表以及应用实施程。该文不需要再与运营方讨
论，需面数据运营内就开实施程成一致见即可。
阶：特征取与数据落表
本阶数据分掘需要根据前面明确的需景进行

务建，写好HQL ，将相应的写入时表，并取数据
验是务景需。
六阶：下数据验收与试
数据库的将相关数据落表后，设定时调度务，定

期更新数据。数据运营需要验收数加工的HQL 是
需，根据务需取表数据看其是理范内，如
现题要及时馈给数据库调整代码行为权重的数。
七阶：上布与效
六阶，数据验收后， Git进行版本理，
上。用Git进行版本理，上后持应用效及
务方馈，调整化及相关权重。
1.4.2　阶关出
为证程序上的准时稳定，需要规划好阶的务排
期关出。画像的开分为几主要阶，包前期
理、用开、ETL调度开、数据服务层、画像端
开、面务方推广应用、为务方提营略的解决方，
如表1-1 示。
表1-1　用画像项目阶关出
· 开：根据务需应用景理，调研
务上定义的数据径，确认数据来，开相应的。开
整画像项目期占有比重。
·ETL调度开：理需要调度的务的赖关，开调
度本及调度监控警本，上调度。
· 服务层接：为让画像数据出数据库，应用到用

上，需要数据库务的接。
·画像化：需要理与务、术开一对

接务需功实现，画原，确定工排期。
Java Web端开完成后，需要数据开对应的库表入数
据。
·开调：画像的数据端搭建好、提稳定服

务的础上，为让调度务行来更加高效、提服务更加稳
，需要对计本、调度本、数据同步本相关计务
进行重化。
·面务方推广应用：用画像最终的价出是务方应

用画像数据进行用分，触运营用，分 ROI，提升用
度营收。此，面务推广画像的用方、提
对具务景的解决方显尤为重要。该阶，相关需
要撰写画像的用文，提务支持。
1.5　画像应用的落
用画像最终的价还是要落运行，为务带来实际价。这
里需要开的数据工程师需方相互协，将应用到务
。则开完后，数据还是留数据库，有为务
决带来积用。
画像开程，还需要开组织数据分、运营、客服

的进行画像应用上的推广。对数据分来说，可
关用画像开表、字以及字的径定义；对运
营、客服务来说，可更关用定义的径，如
Web端用画像进行分、定用进行定营，以及应用
务上数据的准确及时。
有务日常工真正应用画像数据、画像，
更好推动画像的代化，带来提升营收，出
价。
1.6　用画像
这里一贯穿本的实来将家更好带入实际开
画像、应用画像的景。本主要介景及相关的元数
据，以及开可以设计的表样。
本的开工， Spark计擎，主要涉及的语言包
HiveQL、Python、Scala、Shell 。
1.6.1　景介
电站有千万的购用，
100 万种。用平台上可进行览、搜、收藏、下单、购行
为。的运营需要解决两题：一方面、
资的景下，如兼顾目的同时更好
消费的需，为用带来更化的购物验，内容的准推
荐，更好提高用的击化率；另一方面用规不断的
景下，运营方虑建立用预警机制，及时识别将要的用
，取运营措施挽用。
建立以来，数据库积着的务数据、日数据
及数据。如充分掘数据库的数据的价，有效支
持用画像的建设，成为当前的重要工。
1.6.2　相关元数据
本，可以获取的数据其分为：务数据用
行为数据。其务数据是用平台上下单、购、收藏物
、货物送与务相关的数据；用行为数据是用搜条
、访页面、击、提表单操行为
生（解日的表）的数据。
涉及数据库的表主要包用表、订单表、

表、目表、App端日表、Web端日表、评论表。下
面就用画像建程用到的一数据表详细介。
1.用表
用表（见表1-2）存放有关用的种，如用姓名、

年龄、别、电话号码、归属。
表1-2　用表（dim.user_basic_info）
2. 订单表
订单表（见表1-3）存放订单的，包订单
号、用 id、用姓名、订单生成时、订单状。
表1-3　订单表（dw.order_info_fact）
3. 日表
日表（见表1-4）存放用访 App时击相关控件的

记。客端，从日数据解出来。
表1-4　日表（ods.page_event_log）
4.访日表
访日表（见表1-5）存放用访 App的相关及用的LBS

相关，客端，从日数据解出来。
表1-5　访日表（ods.page_view_log）
5. 评论表
评论表（见表1-6）存放用对的评论。
表1-6　评论表（dw.book_comment）
6.搜日表
搜日表（见表1-7）存放用 App端搜相关的日数据。
表1-7　搜日表（dw.app_search_log）
7.用收藏表
用收藏表（见表1-8）记用收藏的数据。
8.购物表
购物表（见表1-9）记用将加入购物的数据。
表1-8　用收藏表（dw.book_collection_df）
表1-9　购物表（dw.shopping_cart_df）
1.6.3　画像表设计
表设计也是画像开程需要解决的一重要题。
表设计的重是要虑存储、如存储（数据分

区）、如应用（如取）这3 方面的题。
不同务景有不同的设计方，这里提两种设计：一是

日全数据的表；二是日数据的表。
Hive需要对入进行全盘描来询条件，用分区可

以化询。对用这种日加工数据，随着时的推移，分区
数的变动也是匀的。
日全数据，即该表的日期分区记着止到当的全用
数据。如，“select count（*）from userprofile where
data='20180701'”这条语句询的是userprofile表止到2018年7月
1日的全用数据。日全数据的势是方询，是不探
更细度的用行为。
日数据，即该表的日期分区记着当日的用行为数

据。如，同样是“select count（*）from userprofile where
data='20180701'”，这条语句询的是userprofile表 2018年7月1
日记的当日用行为数据。日数据可视为ODS层的用行为画
像，应用时还需要该数据进一步的建加工。
下面详细介这两种表的设计方。
1.日全数据
日全数据表，对应的日期分区插入止到当为止

的全数据，用进行询时，需询最近一的数据即可获最
新全数据。下面以一具的日全表的子来进行说明。
CREATE TABLE `dw.userprofile_attritube_all `(

ùserid` string COMMENT 'userid',
`labelweight` string COMMENT ' 权重',)
COMMENT 'userid 用画像数据'
PARTITIONED BY ( `data_date` string COMMENT '数据日期', `theme` string COMMENT '二
主题', `labelid` string COMMENT ' id')
这里userid表示用 id，labelweight表示权重，theme表示

归属的二主题，labelid表示一 id。 “日期+ 归
属的二主题+ id”的方进行分区，设三分区字更开
询数据。该表下的权重虑计的权重，
如：历购额对应的权重为额数，用近30日访数
为对应的数，该权重的计未虑为杂的用行为次数、行
为、行为今时杂况。
表名末尾加“_all”的规范化命名，可直观看出这是

一日全表。
如，对主题为“ ”的，插入“20190101”日的
全数据，可语句：insert overwrite table
dw.userprofile_userlabel_all
partition（data_date='20190101'，theme='member'，
labelid='ATTRITUBE_U_05_001'）来实现。询止
到“20190101”日的被上的用，可语句：select
count（distinct userid）from dw.userprofile_userlabel_all
where data_date='20190101'来实现。具的开程 4.1 详细
讲解。
2.日数据
日数据表，即的日期分区插入当务运行生的

数据，用进行询时限制询的日期范，就可以出特定
时范内被上特定的用。下面以一具的日表
的子来说明。
CREATE TABLE dw.userprofile_act_feature_append (

labelid STRING COMMENT ' id',
cookieid STRING COMMENT '用 id',
act_cnt int COMMENT '行为次数',
tag_type_id int COMMENT ' 码'，
act_type_id int COMMENT '行为码')
comment '用画像-用行为表'
PARTITIONED BY (data_date STRING COMMENT '数据日期')
这里，labelid表示名称；cookieid表示用 id；act_cnt表
示用当日行为次数，如用当日览三 3次，则上次
数为3；tag_type_id为，如婴、3C、数码不同；
act_type_id表示行为，如览、搜、收藏、下单行为。分区
方为日期分区，插入当日数据。
表名末尾加“_append”的规范化命名，可直观看出这

是一日表。
如，用 “20180701”日览 3C电子 4次
（act_cnt），即给该用（userid）上对应的三
（tagid），（tag_type_id）为3C电子，行为
（act_type_id）为览。这里可以对行为两字
度表的方，对数据进行理。如对行为
（act_type_id）字，可以设定1为购行为、2为览行为、3为收
藏行为，行为表以数定义用行为，度表
护数对应的具义。
该日数据表可视为ODS层用行为明细。询程，
如对用 id为001的用，询其 “20180701”日
到“20180707”日被上的，可命令：select*from
dw.userprofile_act_feature_append where userid='001'and
data_date>='20180701'and data_date<='20180707' 询。
该日的表记用的行为带来的，未计
用上的权重，计权重时还需进一步建加工。
权重详见4.6 的内容。
3.关宽表设计
用画像表如设计，有一定要的定的，

务需要、应用即可。下面两宽表设计的，提另
一种解决方的。
用属宽表设计（见表1-10），主要记用本属。
表1-10　用属宽表设计
用日宽表设计（见表1-11），主要记用访的
。
表1-11　用日宽表设计
1.7　定画像
本重讲解如运用数据定刻画用画像，对用
的刻画除定度，定刻画也是常见。定画像见
用研究运营岗位，电话调研、络调研卷、当面入访
谈、上三方权威数据方收集用，帮助其理解用。这
种定调研相比数据定刻画用来说，可以更确解用
需行为特征，这样本是有限的，出的论也不一定代
表分用的观。
制定调研卷表，我可以收集用本以及设一

景，专访用络收调研卷，分卷数据后获取
用的画像特征。目前市上“ 卷星” 三方卷调平台可提
用卷设计、接放、集数据、调研分一
列功，如 1-7 示。
1-7　调研卷示（ “ 卷星”）
根据收的调研卷，可计数据进一步分用画像特征

（如 1-8 示）。
1-8　收的调研卷（ “ 卷星”）
1.8　本章小
本章主要介用画像的一础知识，包画像的介、
、整画像的数据，开画像主要覆盖的8
，以及开程的阶关出。初步介画像的轮廓
貌，帮助读对如设计画像、开期、画像的应用方
有宏观的初步的解。本后面的章将 1.3 画像覆盖
的8 次展开。
2章　数据
数据是建立用画像的关环，也是开前要
进行的工，具来说就是需要的务况设定相关的
。
互相关建立用画像时一除用度
（userid）建立一套用，还用用设度
（cookieid）建立相应的。 cookieid 度的应用也
容易理解，当用有登账访设时，也可以用
设上的行为对该设推送相关的广、服务。
建立的用可以分为计、规则机学习

掘，相关内容 1.1.2 有详细介。从建立的度来看，
可以将其分为用属、用行为、用消费风险控制
常见。
下面详细介用的成及应用景。
2.1　用属度
2.1.1　常见用属
用属是刻画用的础。常见用属包：用的年
龄、别、安装时、册状、市、省、登、历购
状、历购额。
用属度的建成后可以提客服电话服务，为运营
解用本况提帮助。
用属包计、规则、机学习掘。
计的开为单，机学习掘将 4.3 具
进行讲解。本主要介常见用属主要包的度。表
2-1给出常用的用属度。
表2-1　用属度示
表2-1对相同的一，需要判断的关为
互斥关还是非互斥关。如，判断别时，用别为男的
况下就不同时为女，以为互斥关；判断用是
黑名单内时，用既可短黑名单，也可同时件黑名单
，以这种就为非互斥关。
对根据数进行计、分的开相对容易。如，用

的“ 别”“年龄”“ 市”“历购额” 确定的。
对规则的进行开前则首先需要进行数据调研。如，对
用价度划分（RFM），如确定一用是重要价用还是一
价用，对用度的划分如确定是高、、低
还是已，需要数据调研况给出科学的规则并进行划
分。 4.2 ，将两介规则如开。
2.1.2　用别
用别可细分为别购物别两种。
别是用的实际别，一可用册、写
调卷表单径获。该需要从相应的表取数据即
可，加工来为方。
用购物别是用购物时的别取。如，一位实际
别为男的用，可常给妻子购女的衣物、包，
么这位用的购物别则是女。
2.2　用行为度
用行为是另一种刻画用的常见度，用行为可以掘
其好特征。常见用行为度（见表2-2）包：用订单相
关行为、下单/访行为、用近30 行为、用高频时
、用购、击好、营敏度相关行为。
表2-2　用行为度示
2.3　用消费度
对用消费度的建设，可从用览、加购、下
单、收藏、搜对应的入，越细越确，给用推荐
营的准确越高。如 2-1 示，根据用相关行为对应
建设，本确到三。
表2-3为用消费度的设计。
2-1　用消费度理
表2-3　用消费度示
这里一景来介建用消费度的的应用。女
装动期，运营需要出平台上的质用，并
短、件、Push 进行营，可以 “ 览”“收
藏”“加购”“购 ”“搜 ”与该女装相关 ”的来出
可对该女装兴的用，进一步组其（如“
别”“消费额”“ 度” ）出对应的高质用，推送
到对应。此将象成后，可 +行为的组
应用方到目用。
2.4　风险控制度
互的用可到薅、刷单、贷诈行
为的用，为防止这用给平台带来损风险，互公司需
要风险控制度建相关的，有效监控平台的不用
。公司务方，如可从账号风险、设风险、贷风险
度入建风控度。下面详细介一常见的风险控制
度的示，如表2-4 示。
表2-4　风险控制度示
2.5　社属度
社属用解用的家庭成、社关、社好、社
程度方面，这可以更好为用提化服务。
表2-5是常用的社属度示。
表2-5　社属度示
日常用社软件时，我可以现社软件的广
我的社特征进行化推送。如 2-2 示，我
市、常及近期收藏的电相关文章，朋友给我推
送相关电营的广。如 2-3 示，我的星座年龄
，推送我特征的婚庆摄广。
2-2　朋友广 – 位（）
2-3　朋友广 – 星座（）
2.6　其常见划分方
本章前5 从用属、用行为、用消费、风险控制、社属
共度划分归用。对用的归
并不局限此，应用景对进行归也是常见的划分
方。 2-4展示具的画像应用景划分。
从务景的角度出，可以将用归为用属、用

行为、营景、细分、好细分、用分层度。
度可细分出二、三。
·用属：包用的年龄、别、设号、安装/ 册状

、刻画用静特征的属。
·用行为：包用的消费行为、购后行为、近N日的访、

收藏、下单、购、后相关行为。
2-4　画像应用景划分
· 好细分：用对、价、营、购
的好、不同营方方面的好特征；
·风险控制：对用从征风险、用设的风险、平台消费

程生的题度其风险程度；
· 务专用：应用种务上的，如A/B 试、Push

；
·营景：以景化进行分，根据务需要建一列营

景，用的需，如差化客服、景用、再营用
；
· 细分：识用的常住市、居住、工

，应用用理位进行推荐的景；
·用分层：对用生命期、RFM、消费平、度
进行分层划分。
本提一种从务景的角度出对进行归的解

决方。为读建提另一种参度。
2.7　命名方
为对诸进行集理，需要对对应的
id进行命名。如，对别为“男”的用上
“ATTRITUBE_U_ol_001”，别为“女”的用上
“ATTRITUBE_U_01_002”。下面我详细介如建立这套
命名方。
对一，可以从主题、刻画度、、一归
角度入来确定的一名称，如 2-5 示。
2-5　用命名度
· 主题：用刻画属种的，如属、行为

属、用消费、风险控制种，可分别用ATTRITUBE、
ACTION、CONSUME、RISKMANAGE 单词表示主题。
·用度：用刻画该是用一识（userid）

上，还是用用的设（cookieid）上。可用U、C 字分别
识userid cookieid 度。
· ：可划分为计、规则。其计
开可直接从数据库主题表建加工成，规则需要
公司务数据况，开需要对数据机学习的理
到相应的。
·一度：主题下面，进一步细分度来刻画
用。
参照上面的命名度命名方，下面几子来讲如
命名。
对用的别，主题是属，用度为
userid，属。给男用上
“ATTRITUBE_U_01_001”，给女用上
“ATTRITUBE_U_01_002”，其 “ATTRITUBE”为属主
题，“_”后面的”U”为userid 度，“_”后面“01”为一归，
最后面的“001” “002”为该一下的明细，如是划分
高低用的，对应一下的明细可划分
为“001”“002”“003”。
一命名后，护一码表记 id名称、义及

径主要，后期方元数据的护理。本介的
命名方可为开程的一种参方。
2.8　本章小
本章主要介如务景去搭建刻画用的数据
。其 2.1 到2.5 介一种从用属、用行为、用消
费、风险控制社属 5 度建立用的，2.6 提
一种应用景搭建的。2.7 介一种规范化
命名的解决方，可证对一务上一的 id。
对互来说，其存储的用访日数据分
用操的行为特；对来说则可以更从用属
度去富。
3章　数据存储
画像搭建的程，数据存储的术是非常重要的一
项内容，不同的存储方适用不同的应用景。本章主要介用
Hive、MySQL、HBase、Elasticsearch存储画像相关数据的应用景及
对应的解决方。
3.1　Hive存储
本内容主要介用Hive 为数据库的应用景时，相应的
库表如设计。
3.1.1　Hive数据库
建立用画像首先需要建立数据库，用存储用数据。
Hive是 Hadoop的数据库工具，赖 HDFS存储数据，提的SQL
语言可以询存储 HDFS 的数据。开时一用Hive 为数据
库，存储用特征库相关数据。
“数据库父”W.H.Inmon 《Building the Data

Warehouse》一定义数据库是“一面主题的、集成的、非易
的、随时变化的、用来支持理决的数据集 ”。
·面主题：务数据库的数据主要对事务理，务

是相互分离的，数据库的数据是照一定主题进行组
织的。
·集成：数据库存储的数据是从务数据库提取出来的，

并不是对原有数据的单制，是取、理、换
（ETL）工。务数据库记的是一项务理的账。这
数据不适进行分理，进入数据库前需要一列计，
同时一无关分理的数据。
·非易：务数据库一存储短期数据，此其数据是不

稳定的，记的是数据变化的瞬。数据库的数据表
示去一时刻的数据，主要用询、分，不像务的数
据库一样常改，一数据库建完成后主要用访，不进行
改删除。
·随时变化：数据库关的是历数据，时顺序定期从

务库日库里面入新的数据进行加，带有时属。
数据取到数据库的程如 3-1 示。
3-1　数据取到数据库
数据库建的程，主要涉及事实表度表的建开
（ 3-2）。
事实表主要务程设计，就应用景来看主要包事务事

实表，期照事实表计照事实表：
·事务事实表：用描务程，务程的单一
务程可进一步分为单事务事实表事务事实表。其单事务事实
表分别记务程，如下单务记入下单事实表，支务记
入支事实表。事务事实表同一表包不同务程，如
下单、支、收务程记一表，新字来判断
属一务程。当不同务程有着相时可虑将务
程放到事务事实表。
· 期照事实表：一确定的时隔内对务状进行度

。如看一用的近1年额、近1年购物次数、近30日登
数。
· 计照事实表：用看不同事件的时隔，如分
用从购到支的时、从下单到订单完的时。一适用
有明确时期的务程。
3-2　数据库建
度表主要用对事实属的方面描，如，度包

的价、、牌、原厂家、号方面。度表开
的程，常到度变化的况，对变化一
用：①重写度，对历数据进行覆盖；② 留条记，
插入度列字加以区分；③开日期分区表，日分区数据记当
日度的属；④开表时变化进行全存储方进行
理。画像主要用Hive 为数据库，开相应的度表
事实表来存储、、应用到服务层的相关数据。
3.1.2　分区存储
如将用开成一的宽表，这宽表下放几十种
，么该画像宽表的ETL 将费时，且不
这宽表新。
要解决这种ETL 费时的题，可以从以下几方面着：
·将数据分区存储，分别行；
· 本调；
· 一共同的数据来开表。
下面介一种用分表、分区存储的解决方。
根据的属、行为属、用消费、风险控
制、社属度分别建立对应的表进行分表存储对应的
数据。如 3-3 示。
· 属表：dw.userprofile_attritube_all；
·行为属表：dw.userprofile_action_all；
·用消费表：dw.userprofile_consume_all；
·风险控制表：dw.userprofile_riskmanage_all；
·社属表：dw.userprofile_social_all
3-3　用数据ETL 示
如创建用的属宽表：
同样的，用其 id 度（如cookieid、deviceid、registerid
）的数据存储，也可以用上面的表。
上面的创建设立属度的宽表开相关的用

，为提高数据的插入询效率， Hive 可以用分区表的方
，将数据存储不同的目。 Hive 用select 询时一
描整表有数据，将费时描不是当前要询的数
据，为描表关的一分数据，建表时入 partition的
。询时，可以 Hive的分区机制来控制一次历的数据。
3.1.3　
3.1.2 的，用的插入到相应的分区下面，
是对一用来说，上的全存储不同的分区下
面。为方分询，需要将用上的理。接
3.1.2 的，下面讲解的开（见 3-4）。
后将一用上的全到一字，
表设计如下：
CREATE TABLE `dw.userprofile_userlabel_map_all`(

ùserlabels` map<string,string> COMMENT 'tagsmap',)
COMMENT 'userid 用 '
PARTITIONED BY ( `data_date` string COMMENT '数据日期')
3-4　数据
开 udf函数“cast_to_json”将用上的成json字
，行命令将分区存储的进行：
insert overwrite table dw.userprofile_userlabel_map_all partition(data_date=
"data_date")
select userid,
cast_to_json(concat_ws(',',collect_set(concat(labelid,':',labelweight))))
as userlabels
from “用度的表”
where data_date= " data_date "
group by userid
后用的存储如 3-5 示
3-5　数据
将用上的进行询计。如，画像
，入用 id后直接询该表，解 id 对应的权重
后，即可前端展示该用的相关（如 3-6 示）。
3-6　用询
3.1.4　ID-MAP
开用的时，有项非常重要的内容——ID-MApping，即
用不同来的识数据识别为同一主。用的
属、行为相关数据分散不同的数据来， ID-MApping
用不同景下的行为来，消除数据孤岛。 3-7展示用
与设的对关。 3-8展示同一用不同平台的行为
示。
3-7　用设的对关
3-8　同一用不同平台行为
来说，用未登 App的状下， App站内访、搜相

关内容时，记的是设 id（即cookieid）相关的行为数据。用
登 App后，访、收藏、下单相关的行为记的是账号id（即
userid）相关行为数据。虽是同一用，其登未登设
时记的行为数据是未的。 ID-MApping userid
cookieid的对应关，可以用登、未登设时捕获其行
为。
下面一介如 Hive的ETL工完成ID-Mapping的
数据工。
变化是表设计常见的一种方，度并不是不变

的，随时也生变化。如用的机号、可
随用的状变化改变，再如的价也随时变化调整上
的价。此设计用、表时虑用变化来开
。同样，设计ID-Mapping表时，由一用可以设上
登，一设也被用登，以虑用变化表来记
这种不同时的状变化（ 3-9）。
3-9　ID-Mapping 表
表是对变化表的一种设计方，记一事物从开
始到当前状的全状变化。
上，表记 userid 一次关到不同cookieid

的况。如userid为44463729的用， 20190101这登设，
6号变换另一设登。其 start_date表示该记的开始
日期，end_date表示该记的束日期，当end_date为99991231时，
表示该条记当前仍有效。
首先需要从表访日表里面获取到cookieid userid同

时出现的访记。下面，ods.page_event_log是日
表，ods.page_view_log是访日表，将获取到的userid cookieid
插入cookieid-userid关表（ods.cookie_user_signin）。代
码行如下：
INSERT OVERWRITE TABLE ods.cookie_user_signin PARTITION (data_date =

'${data_date}')
SELECT t.*
FROM (
SELECT userid,
cookieid,
from_unixtime(eventtime,'yyyyMMdd') as signdate
FROM ods.page_event_log -- 表
WHERE data_date = '${data_date}'
UNION ALL
SELECT userid,
cookieid,
from_unixtime(viewtime,'yyyyMMdd') as signdate
FROM ods.page_view_log -- 访日表
) t
创建ID-Map的表，将新到ods.cookie_user_signin表
的数据与表历数据比，如有变化新数据则进行更
新。
CREATE TABLE `dw.cookie_user_zippertable`(

ùserid` string COMMENT '账号ID',
`cookieid` string COMMENT '设 ID',
`start_date` string COMMENT 'start_date',
ènd_date` string COMMENT 'end_date')
COMMENT 'id-map 表'
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
创建完成后， ETL调度将数据更新到ID-Mapping 表，
务行如下。
INSERT OVERWRITE TABLE dw.cookie_user_zippertable

SELECT t.*
FROM (
SELECT t1.user_num,
t1.mobile,
t1.reg_date,
t1.start_date,
CASE WHEN t1.end_date = '99991231' AND t2.userid IS NOT NULL THEN
'${data_date}'
ELSE t1.end_date
END AS end_date
FROM dw.cookie_user_zippertable t1
LEFT JOIN ( SELECT *
FROM ods.cookie_user_signin
WHERE data_date='${data_date}'
)t2
ON t1.userid = t2.userid
UNION
SELECT userid,
cookieid,
'${data_date}' AS start_date,
'99991231' AS end_date
FROM ods.cookie_user_signin
) t
数据写入表，如 3-9 示。
对该表，可看日（如20190801）的照数据。
select *
from dw.cookie_user_zippertable
where start_date<='20190801' and end_date>='20190801'
如，目前存一记 userid cookieid关关的表，是
为对的记（即一 userid对应条cookieid记，以及一条
cookieid对应条userid记）。这里可以表的日期来看
时 userid对应的cookieid。看用（如32101029）
（如20190801）关到的设 id（ 3-10）。
select cookieid
from dw.cookie_user_zippertable
where userid='32101029' and start_date<='20190801' and end_date>='20190801'
3-10　用表记
上可看出用 ‘32101029’ 历曾登 3 设，限
定时可到特定时下用的登设。
开需要关 userid与cookieid的对关，如不
加条件限制就关，可数据题。
实际应用，到许需要将userid cookieid 关的

况。如，需要 userid 度开出该用近30日的购次数、购
额、登时、登数。前两可以容易从相应
的务数据表根据加工出来，登时、登数的数据存
储相关日数据，日数据表记的userid与cookieid为对
关。此务需开时，要确定好径定义。
本介将userid cookieid 的一种解决方

，实还存需要将用不同平台（如Web端 App端）行为
的应用景。
3.2　MySQL存储
MySQL 为关数据库，用画像可用元数据理、监控
预警数据、集存储应用。下面详细介这3 应用景。
3.2.1　元数据理
Hive适数据的理，对小的数据，MySQL
具有更的读写速度。Web端读写MySQL数据库有更的速度，
方的定义、理。
7.2 7.3 ，我介元数据入询功，将相应

的数据存储 MySQL 。用的元数据表设计 7.3 进行
详细的介。这里给出平台视（如 3-11 示）元数据
理页面（如 3-12 示）。
3-11　平台视
3-12　理
平台视的元数据可以护 MySQL关数据库，

的、询理。
3.2.2　监控预警数据
MySQL还可用存储对ETL 的监控。从整画像调度
的关来看，需要监控的环主要包对的出、
服务层数据同步况的监控主要景。 3-13 示是用画像调度
主要，下面详细介。
3-13　用画像调度主要
1. 计数据监控
主要用监控 ETL的数据是出现常，如有常

况则出警件，同时暂后面的ETL 务。
2.服务层同步数据监控
服务层一用HBase、Elasticsearch 为数据库存储数

据上调用，将相关数据从Hive数服务层同步的程，
有出现差的可，此需要记相关数据 Hive 的数及同步到
对应服务层后的数，如数不一致则触警。
对画像的数据监控，调度完相应的，就将该

的监控数据插入MySQL ，当验务判断到触警时，送
警件，同时断后的调度务。待开解决题后，可重
后调度。
3.2.3　集存储
集可以用来存储视分用的、服务用的用
、当日记数，用验数据是出现常。
有的上务用MySQL、Oracle 关数据库存储数据，
如短、消推送。画像数据与上务时，
需要虑将存储 Hive 的用相关数据同步到务，此
时MySQL可用存储集。
Sqoop是一用来将Hadoop 关数据库的数据相互移的工

具。它可以将一关数据库（如MySQL、Oracle、PostgreSQL ）
的数据导入Hadoop的HDFS ，也可以将HDFS 的数据导入关数
据库。
下面一来讲解如用Sqoop将Hive 的数据移
到MySQL 。
电、险、融公司的客服的日常工内容一是对目

用（如已用、高价用）进行主动呼，以此
用来平台进行购购。这里可以助用画像实现该功
。
将Hive 存储的与用相关的数据同步到客服，首先

Hive 建立一记用相关的表
（dw.userprofile_userservice_all）。设日期分区以日期
取当前的需要。
CREATE TABLE `dw.userprofile_userservice_all `(

ùser_id` string COMMENT 'userid',
ùser_sex` string COMMENT 'user_sex',
`city` string COMMENT 'city',
`payid_money` string COMMENT 'payid_money',
`payid_num` string COMMENT 'payid_num',
`latest_product` string COMMENT 'latest_product',
`date` string COMMENT 'date',
`data_status` string COMMENT 'data_status')
COMMENT 'userid 用客服数据'
PARTITIONED BY ( `data_date` string COMMENT '数据日期')
MySQL 建立一用接收同步数据的表
（userservice_data）。
CREATE TABLE ùserservice_data` (

ùser_id` varchar(128) DEFAULT NULL COMMENT '用 id',
ùser_sex` varchar(128) NOT NULL COMMENT '用别',
`city` varchar(128) DEFAULT NULL COMMENT ' 市',
`payid_money` varchar(128) DEFAULT NULL COMMENT '消费额',
`payid_num` varchar(128) DEFAULT NULL COMMENT '消费次数',
`latest_product` varchar(128) DEFAULT NULL COMMENT '最近购 ',
`date` varchar(64) NOT NULL COMMENT ' 日期',
`data_status` varchar(64) DEFAULT '0' COMMENT '0:未 ,1: ,2:成功,3: 败',
PRIMARY KEY (ùser_id`),
) ENGINE=InnoDB AUTO_INCREMENT=2261628 DEFAULT CHARSET=utf8 COMMENT='用客服数据
表';
Python 本调用shell命令，将Hive 的数据同步到MySQL

。行如下本：
# -*- coding: utf-8 -*-

import os
import MySQLdb
import sys
def export_data(hive_tab, data_date):
sqoop_command = "sqoop export --connect
jdbc:mysql://10.xxx.xxx.xxx:3306/mysql_database --username username --password
password --table mysql_table --export-dir hdfs://nameservice1/user/hive/warehouse
/dw.db/" + hive_tab + "/data_date=" + data_date + " --input-fields-terminated-by
'\001'"
os.system(sqoop_command)
print(sqoop_command)
if __name__ == '__main__':
export_data("dw.userprofile_userservice_all", '20181201')
其用到 sqoop从Hive导出数据到MySQL的命令：
sqoop export
--connect 定JDBC 接字 ,包 IP 端数据库名称 \
--username JDBC 接的用名\
--passowrd JDBC 接的密码\
--table 表名\
--export-dir 导出的Hive表, 对应的是HDFS \
--input fileds-terminated-by ‘,’ 分隔号
同步后MySQL 的数据如 3-14 示。

3-14　同步到MySQL 的数据
3.3　HBase存储
3.3.1　HBase 介
HBase是一高、列存储、可、实时读写的分布存储
，同样运行 HDFS 上。与Hive不同的是，HBase 数据库上实
时运行，不是 MapReduce 务，适进行数据的实时询。
画像 Hive里出的集数据可同步到HBase数据
库，用上实时应用的景。
下面介几本：
·row key：用来表示一一行记的主，HBase的数据是照

row key的字典顺序进行全局排列的。访 HBase 的行有3种方：
· 单 row key访；
· row key的正则访；
·全表描。
由 HBase rowkey对数据进行， rowkey由度限制的

不将询条件接 rowkey ，此HBase无像关数据
库样根据种条件对数据进行。一，HBase需建立二
来根据杂条件询数据的需。
Rowkey设计时需要三原则：
· 一原则：rowkey需要证一，不存重的况。
画像一用用 id 为rowkey。
· 度原则：rowkey的度一为10-100bytes。
·散列原则：rowkey的散列分布有利数据衡分布
RegionServer，可实现负衡。
·columns family：列，HBase 的列归属列
。列是表的schema的一分，须用表前定义。划分
columns family的原则如下：
·是具有相的数据；
·是具有相的访。
常用的删改命令如下。
1）创建一表，定表名列名：
create '<table name>','<column family>'
2）描表数据，并显示其的10条记：
scan '<table name>',{LIMIT=>10}
3）用get命令读取数据：
get '<table name>','row1'
4）插入数据：
put '<table name>','row1','<colfamily:colname>','<value>'
5）更新数据：
put '<table name>','row ','Column family:column name','new value'
6）删除表前先将其禁用，后删除：
disable '<table name>'

drop '<table name>'
下面一来介 HBase 画像的应用景工程化
实现方。
3.3.2　应用景
运营为进未册的新安装用册、下单，计划
App首页弹窗（如 3-15 示）放包券的方进行导。
该景可画像实现对应功。
务上，运营组用（如“未册用
” “安装今数”小 ×× ）出对应的用，后
将对应推送到“广 ”（功详见7.4 ），这样
画像的ETL调度完成后对应数据就被推送到HBase数据库进行
存储。条件的新用来访App时，由接读取HBase数据库，
询到该用时为其推送该弹窗。
下面工程来讲解HBase 该触用景的应用方
。
3-15　App弹窗推送内容（ “ 刻”App）
3.3.3　工程化
运营画像（详见 7章）根据务规则定义组用
出用，并将该上到广（如 3-16
示）。
3-16　将待运营上到广
务好规则后，下面我来看数据调度层面是如
运行的。
用数据 ETL将用上的后插入到目表
，如dw.userprofile_userlabel_map_all（详见3.1.3 ）。后
数据存储为用 id，以及上对应的集，数据如
3-17 示。
3-17　userid用数据
接下来需要将Hive 的数据导入HBase，上接实时调用库

数据。
HBase的服务主从服务（如 3-18 示），
同一时刻有一 HMaster 状，当的Master挂掉后，
Backup HMaster 动接整 HBase集。同步数据前，首先需要判
断HBase的当前是台机。
3-18　HBase的主从服务
行如下本：
# 判断
global activenode
for node in ("10.xxx.xx.xxx","10.xxx.xx.xxx"): # 两台机为Master，判断台HMaster
状
command = "curl http://"+ str(node) + ":9870/jmx?
qry=Hadoop:service=NameNode,name=NameNodeStatus"
status = os.popen(command).read()
print("HBase Master status: ".format(status))
if ("active" in status):
activenode = node
行完毕后，可的“State”字判断当前状（

为“active”，不为“standby”），如 3-19 示。
3-19　HBase当前状
为免数据写入一 region，造成HBase的数据斜题。当

前HMaster 的上，创建预分区表：
create 'userprofile_labels', { NAME => "f", BLOCKCACHE => "true" , BLOOMFILTER =>
"ROWCOL" , COMPRESSION => 'snappy', IN_MEMORY => 'true' }, {NUMREGIONS =>
10,SPLITALGO => 'HexStringSplit'}
将待同步的数据写入HFile，HFile 的数据以key-value 对方
存储，后将HFile数据用BulkLoad 写入HBase集。Scala
本行如下：
import org.apache.hadoop.fs.{FileSystem, Path}

import org.apache.hadoop.HBase.client.ConnectionFactory
import org.apache.hadoop.HBase.{HBaseConfiguration, KeyValue, TableName}
import org.apache.hadoop.HBase.io.ImmutableBytesWritable
import org.apache.hadoop.HBase.mapreduce.{HFileOutputFormat2,
LoadIncrementalHFiles}
import org.apache.hadoop.HBase.util.Bytes
import org.apache.hadoop.mapreduce.Job
import org.apache.spark.sql.SparkSession
object Hive2HBase {
def main(args: Array[String]): Unit = {
// 入日期参数当前的master
val data_date = args(0)
val node = args(1) //当前的 ip
val spark = SparkSession

.builder()
.appName("Hive2HBase")
.config("spark.serializer","org.apache.spark.serializer.KryoSerializer")
.config("spark.storage.memoryFraction", "0.1")
.config("spark.shuffle.memoryFraction", "0.7")
.config("spark.memory.useLegacyMode", "true")
.enableHiveSupport()
.getOrCreate()
//创建HBase的
val conf = HBaseConfiguration.create()
conf.set("HBase.zookeeper.quorum", "10.xxx.xxx.xxx,10.xxx.xxx.xxx")
conf.set("HBase.zookeeper.property.clientPort", "8020")
//为预防hfile文件数无进行导入，设参数

conf.setInt("HBase.hregion.max.filesize", 10737418240)
conf.setInt("HBase.mapreduce.bulkload.max.hfiles.perRegion.perFamily", 3200)
val Data = spark.sql(s"select userid,userlabels from

dw.userprofile_usergroup_labels_all where data_date='${data_date}'")
val dataRdd = Data.rdd.flatMap(row => {
val rowkey = row.getAs[String]("userid".toLowerCase)
val tagsmap = row.getAs[Map[String, Object]]("userlabels".toLowerCase)
val sbkey = new StringBuffer() // 对MAP 化 a->b 'a':'b'
val sbvalue = new StringBuffer()
for ((key, value) <- tagsmap){
sbkey.append(key + ":")
val labelght = if (value == ""){
"-999999"
} else {
value
}
sbvalue.append(labelght + ":")
}
val item = sbkey.substring(0,sbkey.length -1)
val score = sbvalue.substring(0,sbvalue.length -1)
Array(
(rowkey,("f","i",item)),
(rowkey,("f","s",score))
)
})
// 将rdd 换成HFile需要的
val rdds = dataRdd.filter(x=>x._1 != null).sortBy(x=>(x._1,x._2._1,
x._2._2)).map(x => {
//KeyValue的实为value
val rowKey = Bytes.toBytes(x._1)
val family = Bytes.toBytes(x._2._1)
val colum = Bytes.toBytes(x._2._2)
val value = Bytes.toBytes(x._2._3.toString)
(new ImmutableBytesWritable(rowKey), new KeyValue(rowKey, family, colum,
value))
})
//文件存 hdfs的位
val locatedir = "hdfs://" + node.toString +
":8020/user/bulkload/hfile/usergroup_HBase_" + data_date
// locatedir生成的Hfile文件
rdds.saveAsNewAPIHadoopFile(locatedir,
classOf[ImmutableBytesWritable],
classOf[KeyValue],
classOf[HFileOutputFormat2],
conf)
//HFile导入到HBase
val load = new LoadIncrementalHFiles(conf)
//HBase的表名
val tableName = "userprofile_labels"
//创建HBase的接,利用默认的文件,读取HBase的master
val conn = ConnectionFactory.createConnection(conf)
//根据表名获取表
val table = conn.getTable(TableName.valueOf(tableName))
try {
//获取HBase表的region分布
val regionLocation = conn.getregionLocation(TableName.valueOf(tableName))
//创建一 hadoop的mapreduce的job
val job = Job.getInstance(conf)
//设 job名称，命名
job.setJobName("Hive2HBase")
// 出文件的内容KeyValue
job.setMapOutputValueClass(classOf[KeyValue])
//设文件出key, outkey要用ImmutableBytesWritable
job.setMapOutputKeyClass(classOf[ImmutableBytesWritable])
// HFileOutputFormat2的
HFileOutputFormat2.configureIncrementalLoad(job, table, regionLocation)
//开始导入
load.doBulkLoad(new Path(locatedir), conn.getAdmin, table, regionLocation)
} finally {
table.close()
conn.close()
}
spark.close()
}
}
提 Spark 务，将HFile 数据bulkload到HBase 。行完成

后，可以 HBase 看到该数据已写入“userprofile_labels”
（ 3-20）。
3-20　HBase 存储数据
接询HBase 数据时，由 HBase无像关数据库

样根据种条件对数据进行（ SQL语言的where 条
件）。一 HBase需建立二来根据杂条件询数据的需
，本用Elasticsearch存储HBase 数据（ 3-21）。
组询对应的用景，首先组的条
件 Elasticsearch 询对应的数据，后数据去
HBase 获取rowkey对应的数据（Elasticsearch 的documentid
HBase 的rowkey 设计为用 id）。
3-21　 Elasticsearch存储的HBase二方
为免从Hive HBase 入数据时， HBase数据同步完

成后，还需要验HBase Hive 数据是一致，如出现的动
则送警。
下面 Python 本来看该HBase状表数据验：
# 询Hive 数据
def check_Hive_data(data_date):
r = os.popen("Hive -S -e\"select count(1) from
dw.userprofile_usergroup_labels_all where data_date='"+data_date+"'\"")
Hive_userid_count = r.read()
r.close()
Hive_count = str(int(Hive_userid_count)
print "Hive_result: " + str(Hive_count)
print "Hive select finished!"
# 询HBase 数据
def check_HBase_data(data_date):
r = os.popen("HBase org.apache.hadoop.HBase.mapreduce.RowCounter
'userprofile_labels'\" 2>&1 |grep ROWS")
HBase_count = r.read().strip()[5:]
r.close()
print "HBase result: " + str(HBase_count)
print "HBase select finished!"
# 接 DB,将询插入表
db = MySQLdb.connect(host="xx.xx.xx.xx",port=3306,user="username",
passwd="password", db="xxx", charset="utf8")
cursor = db.cursor()
cursor.execute("INSERT INTO service_monitor(date, service_type, Hive_count,
HBase_count) VALUES('"+datestr_+"', 'advertisement',
"+str(Hive_userid_count)+","+str(HBase_count)+")")
db.commit()
本将userid 为rowkey存入HBase，一方面组的
景可以支持条件询用，另一方面可以支持单用
的询，如看 id用上的，以运营决定是对其
进行运营操。
HBase 离数环的服务如 3-22 示。
3-22　HBase离数服务
3.4　Elasticsearch存储
3.4.1　Elasticsearch 介
Elasticsearch是一开的分布全文擎，可以近实时
存储、数据。且可展好，可以展到上百台服务，
理PB 别的数据。对用询、用计、用
视分这对应时要高的景，也可以虑用
Elasticsearch进行存储。
Elasticsearch是面文数据库，一条数据这里就是一文

，用json 为文。为更晰理解Elasticsearch 询的一
，将其关数据库的进行对照，如 3-23 示。
关数据库询数据时可数据库、表、行、列来

定位的内容， Elasticsearch （index）、
（type）、文（document）、字来定位内容。一
Elasticsearch集可以包（数据库），也就是说，其包
（表），这包的文（行），后
文包的字（列）。Elasticsearch的互可以用
Java API，也可以用HTTP的RESTful API方。
3-23　Elasticsearch与关数据库的对比
3.4.2　应用景
HBase的存储方并有解决数据的高效题。实际应
用，常有根据特定的几字进行组后的应用景，
HBase 用rowkey 为一，不支持条件询，如要对库里的
非rowkey进行数据询，往往需要 MapReduce 分布
进行计，时延上比高，难以同时用对杂条件
询高效率应这两方面的需。
为既支持对数据的高效询，同时也支持条件进
行杂询，需要 HBase上建二，以对应的需要。本
我用Elasticsearch存储HBase的，以支持杂高效
的询功。
主要询程包：
1） Elasticsearch 存放用条件的数据，并将rowkey也

存储进去；
2）用Elasticsearch的API根据组的条件询出rowkey的

集；
3）用上一步到的rowkey去HBase数据库询对应的（见

3-24）。
HBase数据存储数据的放 Elasticsearch ，实现数据

的分离。 Elasticsearch documentid是文的一识，
HBase rowkey是记的一识。工程实，两可同时用用
平台上的一识（如userid deviceid）为rowkey
documentid，进解决HBase Elasticsearch 关的题。
3-24　 Elasticsearch存储的HBase二方
下面用Elasticsearch解决用计分应用景的
来解这一程。
对后的用表
dw.userprofile_userlabel_map_all（3.1.3 ）的数据进行，
掉一无效字，到导入Elasticsearch的条件，如 3-25
示。
3-25　数据
后将dw.userprofile_userlabel_map_all数据写入
Elasticsearch ，Scala代码如下：
object HiveDataToEs {
val spark = SparkSession.builder()

.AppName("EsData")
.config("spark.serializer", "org.apache.spark.serializer.KryoSerializer")
.config("spark.dynamicAllocation.enabled", "false")
.config("es.index.auto.create", "true")
.config("es.nodes", "10.xx.xx.xx")
.config("es.batch.write.retry.count", "3") // 默认重试3次
.config("es.batch.write.retry.wait", "5") // 次重试待时为5秒
.config("thread_pool.write.queue_size", "1000")
.config("thread_pool.write.size", "50")
.config("thread_pool.write.type", "fixed")
.config("es.batch.size.bytes", "20mb")
.config("es.batch.size.entries", "2000")
.config("es.http.timeout","100m")
.enableHiveSupport()
.getOrCreate()
val data_date = args(0).toString

import spark.sql
val hiveDF = sql(
s"""
| SELECT userid, tagsmap FROM dw.userprofile_userlabel_map_all where
data_date = '${data_date}'
""".stripMargin) // dw.userprofile_userlabel_map_all 3.1.3 讲，是
用的表
val rdd = hiveDF.rdd.map {

row => {
val userid = row.getAs[String]("userid")
val userlabels = row.getAs[Map[String, Object]]("userlabels")
Map("userid" -> userid, "userlabels" -> userlabels)
}
}
EsSpark.saveToEs(rdd , "userprofile/tags", Map[String,String]("es.mApping.id"-
>"userid")
spark.stop()
}
}
工程赖如下：
<dependency>
<groupId>org.elasticsearch</groupId>
<artifactId>elasticsearch-hadoop</artifactId>
<version>6.4.2</version>
</dependency>
将该工程包后提务，入日期分区参数“20190101”
行。提命令“spark-submit--class com.example.HiveDataToEs--
master yarn--deploy-mode client--executor-memory 2g--num-
executors 50--driver-memory 3g--executor-cores 2 spark-hive-
to-es.jar 20190101”。
务行完毕后，当日userid 度的用数据全导入

Elasticsearch 。用RESTfulAPI 询包的用，可实
时到，如 3-26 示。
# 询命令
GET userprofile/tags/_search
{
"size":0,
"aggs": {
"tagcounts": {
"terms": {
"field": "tags.ACTION_U_01_003"
}
}
}
}
3-26　Elasticsearch 询的
从可以看到，用（total）为100000000 ，包
“ACTION_U_01_003”的用有2500000 （doc_count）。
询 index 看：
# 询命令
GET userprofile/_search
{
"query":{
"match_all": {}
}
}
询如 3-27 示。
3-27　Elasticsearch 询 index数据
的计分景，的代，前期用Impala
进行计，一费几十秒到几分的时，用Elasticsearch
后，实现对计的秒应。
3.4.3　工程化
下面一工程来讲解实现画像 “用
” “ 分 ”功对用计秒应的一种解决方。
的ETL调度，需要将Hive计的数据导入

Elasticsearch 。如 3-28 示，调度完成且验后（
3-28 的“ 监控预警” 务行完成后），将数据同步到
Elasticsearch 。
与Elasticsearch数据同步完成并验后， MySQL

护的状表插入一条状记，表示当前日期的Elasticsearch数据
可用，上计用的接则读取最近日期对应的数据。如
为调度延方面的原，有及时将当日数据导入
Elasticsearch ，接也读取最近一对应的数据，是一种可行的
方。
如，数据同步完成后 MySQL状
表“elasticsearch_state” 插入记（如 3-29 示），当日数据
出正常时，state字为“0”，出常时为“1”。 3-29 1月
20日导入的数据出现常，则“state”状字 1，上接描
该状记位后不读取1月20日数据，是取用最近的1月19日数据。
3-28　工程化调度导入Elasticsearch
3-29　Elasticsearch状记表
为免从Hive Elasticsearch 入数据时生数据，

状表更新状位前需要验Elasticsearch Hive 的数据是
一致。下面 Python 本来看数据验：
# 询Hive 的数据
def monitor_hive_data(data_date):
hive_user = " select count(1) from dw.userprofile_userlabel_map_all where
data_date='{}' ".format(data_date)
user_count = os.popen("hive -S -e \"" + hive_user + "\"").read().strip()
return user_count
# 询es 的数据
def monitor_es_data(data_date):
userid_search = "curl http://10.xxx.xxx.xxx:9200/_cat/count/" + data_date +
"_userid/"
userid_num = str(os.popen(userid_search).read()).split(' ')[-1].strip()
return userid_num
# 比 Hive es 的数据，如验，更新MySQL状位

def update_es_data(data_date):
'''
data_date: 询数据日期
'''
esdata = monitor_es_data(data_date) # 询es 的数据
hivedata = monitor_hive_data(data_date) # 询Hive 的数据
print("esdata ======>{}".format(esdata))
print("hivedata ======>{}".format(hivedata))
# 更新MySQL状位
if (esdata[0] == hivedata[0] ):
db = MySQLdb.connect(host="10.xx.xx.xx", port=3306, user="username",
passwd="password",
db="userprofile", charset="utf8")
try:
select_command = "INSERT INTO èlasticsearch_state` VALUES ('"+
str(data_date) +"', 'elasticsearch', '0', '2');"
cursor.execute(select_command)
db.commit()
except Exception as e:
db.rollback()
exit(1)
上面介工程化调度时将Hive 的用数据入

Elasticsearch ，后务画像端计视分
时（如 3-30 示）， RESTful API访 Elasticsearch进行计
（如 3-31 示）。
3-30　画像端计
3-31　用计
3.5　本章小
本章讲解用Hive、MySQL、HBase Elasticsearch存储数
据的解决方，包：Hive存储数据相关表、计表的表
设计以及ID-Mapping的一种实现方；MySQL存储元数据、监控
数据及集数据；HBase存储上接实时调用的数据；
Elasticsearch存储用计视分。存储程
涉及如下相关表。
·dw.userprofile_attritube_all：存储属度的
表；
·dw.userprofile_action_all：存储行为属度的表；
·dw.userprofile_consume_all：存储用消费度的表；
·dw.userprofile_riskmanage_all：存储风险控制度的
表；
·dw.userprofile_social_all：存储社属度的表；
·dw.userprofile_userlabel_map_all：用度的
表；
·dw.userprofile_usergroup_labels_all：存储计后数据
的表。
面不同的工程景用不同的存储方，本章 “工程景

+ ”的介一种可实现的用存储解决方。
4章　数据开
数据开是用画像搭建最主要的环，主要包离
开、实时开、用特征库开、计、数
据服务层开内容。
离开主要2章讲的数据开计、
规则、掘展开；实时主要对给用展现实
时强的景开相关数据，如首页新弹窗、新包景；
用特征库用的次行为明细记相关数据，如用览、搜
、收藏、下单行为明细，一该特征库日时分区；计
应用数据服务层前，务方需要组用的来出对应
，计功组划分出对应的；数据服务
层将务方根据务规则定出来的用推送到不同的务
去。
下面10 小分别对这常见的开内容详细介。

4.1　计开
计是计用相关数、客观描用状的，
如用的年龄、重、计购额、计购次数、近30日登次
数。
4.1 ～4.2 离开相关的，将用相关的

插入到userid 度的行为表。这里再顾一下3.1.2 讲的表
设计。
userid 度的用表可日分区，设计为如下：
CREATE TABLE `dw.userprofile_action_all `(

`labelweight` string COMMENT ' 权重')
COMMENT 'userid 用画像数据'
PARTITIONED BY ( `data_date` string COMMENT '数据日期', `labelid` string COMMENT
' id')
userid 度的数据插入到该表
（dw.userprofile_attribute_all）。
本以开用近30日购行为相关为，介如将相关

数据建加工到画像表。
4.1.1　近30日购行为
对近30日购行为这二目进行解，可将其解为：订单（对应
“ACTION_U_01_001”）、额（对应 “ACTION_U_01_002”）、加入购物次数（对应
“ACTION_U_01_003”）这3 ，下面看如将开插入用表。
首先将需要计的从目表取出来。
select 'ACTION_U_01_001' as labelid, # 订单 id

cast(user_id as string) as userid,
count(distinct order_id) as labelweight # 订单
from dw.order_info_fact # 订单表
where pay_status = 1 # 订单状是已支
and to_date(add_time) >= "month_day_ago" # 日期 30日前
and to_date(add_time) <= "yesterday_date" # 日期小昨
union all
select 'ACTION_U_01_002' as labelid, # 额 id
cast(user_id as string) as userid,
sum(order_total_amount) as labelweight # 额
from dw.order_info_fact
where pay_status = 1 # 订单状是已支
and to_date(add_time) >= "month_day_ago"
and to_date(add_time) <= "yesterday_date"
union all
select 'ACTION_U_01_003' as labelid, # 加入购物事件次数 id
cast(userid as string) as userid,
count(distinct eventid) as labelweight # 加入购物事件次数
from ods.page_event_log # 行为事件表
where data_date >= "month_day_ago"
and data_date <= "yesterday_date"
and eventkey = 'add_to_shoppingbag' # 行为事件名称为“加入购物 ”
and userid is not null # 用 id为非空
该代码证将近30日的有相应行为的用上，要到获取用最

新状，还需要一层全接关。常见的子，用前购 3单，如昨购 2
单，则今最新的状是3+2=5单，替换掉前 3单的权重，如昨有购行为，则权重仍为3。
这里 full outer join（全接）的方，当用有最新状时，获取最新状，如有最新状
则仍留原来状的。全接的代码示如下。
user_consume_acts = "insert overwrite table dw.userprofile_action_all

partition(data_date="start_date_str",labelid="${labelid}")
select nvl(t2.labelid, t1.labelid) aslabelid,
nvl(t2.userid, t1.userid) as userid,
nvl(t2.labelweight, t1.labelweight) aslabelweight
from (
select * from dw.userprofile_userlabel_all
where data_date=" "old_date_partition"
and labelid='${labelid}'
) t1 # 前日数据分区存储的用
full outer join (
# 这里插入的是上一代码
) t2 # 昨日务运行生的新的用
on (t1.userid = t2.userid and t1.labelid = t2.labelid) "
该本 “old_date_partition”参数为设的一日期变，日入的数不同。最后一行的

关用用 id id共同为主。
#!/usr/bin/env python
# encoding: utf-8
from pyspark import SparkContext,SparkConf

from pyspark.sql import SparkSession
import sys
import datetime
def main():
start_date = sys.argv[1]
start_date_str = str(start_date)
format = "%Y%m%d"
strptime, strftime = datetime.datetime.strptime, datetime.datetime.strftime

old_date_partition = strftime(strptime(start_date_str, format) - datetime.timedelta(1), format)
month_day_ago = strftime(strptime(start_date_str, format) - datetime.timedelta(30), format)
# python 初始化Spark
spark = SparkSession.builder.AppName("latest_30_acts").enableHiveSupport().getOrCreate()
spark.sql(user_consume_acts) # user_consume_acts 对应二代码行的语句
if __name__ == '__main__':
main()
该代码对二代码一层Spark封装，可将二的HiveSQL语句提到Spark集上行。

提 Spark 务计该 “spark-submit--master yarn--deploy-mode client--driver-memory 1g--
executor-memory 2g--executor-cores 2--num-executors 50 userprofile_latest_30days_label.py
start-date”。其 spark-submit的参数说明如下：
·deploy-mode：本（Client）动Driver还是集上（Cluster）动Driver；
·driver-memory：Driver端内存小；
·executor-memory：Executor端内存小；
·executor-cores： Executor核数；
·num-executors：动Executor的数；
·class：如是JAR Scala程序的jar包，该参数对应应用程序的主，对提的Python 本，不

用提该参数。
务行完成后将数据插入Hive数据表，如 4-1 示。
4-1　用近30日购行为
4.1.2　最近来访
本小再介一最近一次来访今数（对应
“ACTION_C_02_001”）的开。
最近一次来访今数从用的访日表
（ods.page_view_log）取，本行如下：
# 获取cookie最近一次访日期
user_cookie_relation =
" select t.cookie_id as cookieid,
t.last_visit_time as last_date
from ( select cookie_id,
last_visit_time,
row_number() over(partition by cookie_id order by
last_visit_time desc) as rank
from ods.page_view_log
where data_date = " start_date_str "
and cookie_id is not null
) t
where t.rank =1
having cookie_id is not null "
returned = spark.sql(cookie_last_visit).cache() # 存数据

returned.createTempView("cookie_last_visit") # 册视
将上一步册到视的数据插入cookie的用表，行如

下本：
# 将数据插入到cookie 表
last_visit =
"insert overwrite table dw.userprofile_action_all
partition(data_date="data_date",labelid='${labelid}')
select 'ACTION_C_02_001' as labelid,
cookieid,
datediff(to_date("data_date"),concat(substr(last_date,1,4),'-
',substr(last_date,5,2),'-',substr
(last_date,7,2))) as labelweight
from user_cookie_relation # 上一步骤册的视
group by 'ACTION_C_02_001',
cookieid,
datediff(to_date("data_date"),concat(substr(last_date,1,4),'-',
substr(last_date,5,2),'-',
substr(last_date,7,2)))"
# 开 sparksession
spark =
SparkSession.builder.appName("cookieid_latest_visit").enableHiveSupport().getOrCr
eate()
spark.sql(last_visit)
提 Spark 务计该 “spark-submit--master yarn--

deploy-mode client--driver-memory 1g--executor-memory 2g--
executor-cores 2--num-executors 50
userprofile_latest_visit.py start-date”。
务行完成后将数据插入Hive数据表，如 4-2 示。
4-2　用最近一次来访今数数据
4.2　规则开
规则一是
根据务运营上的需要，务层面制定规
则的。这带有一为主观判断的，以开前
需要先进行数据调研，摸本平台上务数据的况，后再根据运
营务规则开相关。
除由数据开写本开，还可以根据设定的规
则，用平台上的行为进行动。比如用触的50
行为记，有40 记是3C ，我给用上“数码
”的。根据规则，动化重要的是本平台务数据
况设定好规则，同时也需要建立试账号来验动的准确
。
下面两小相关开的来介规则的开。
4.2.1　用价
RFM 是衡用价的重要工具方，RFM 主要由3 础组成：（1）最
近一次消费（Recency），是用上一次购时；（2）消费频率（Frequency），是
用一定时内的消费次数；（3）消费额（Money），是用一定时内计
消费的额。这3 础进行组可以划分出8 ，如表4-1 示。
表4-1　RFM用价
开对应的前需要进行数据调研。根据对数据库取的用消费相关数据进

行分后出用这3 度的数上划分的界限。
本根据对这3 度的数据调研，到用最近一次易时的分布况，如

4-3 示。
4-3　平台用最近一次易时分布（示数据）
根据计用的占比，可照二八比进行划分，将最近一次易时今0，到90

日的用划分为“近”，将最近一次易时今90日以上的用划分为“远”。
本用近一年易订单的分布况如 4-4 示。

4-4　平台用近一年易订单分布（示数据）
根据计用的占比，二八比进行划分，将历易订单 3单以下的用划

分为低频，将易订单 3单及以上的用划分为高频。
用历易额分布况如 4-5 示。
4-5　平台用历易额分布（示数据）
根据用近一年易额况，将易额 300元以下的用划分为“低额”，将

易额 300元的用划分为“高额”。
上面从3 度对用的数据调研，对这3 度进行叉分（R≤90为“近”，

R>90为“远”，F≤3为“低频次”，F>3为“高频次”，M≤300为“低额”，M>300为“高
额”），划分出以下8 ，如 4-6 示。
4-6　平台用 RFM 度的划分（示数据）
对务数据进行调研后开相关。首先从用消费订单表

（dw.user_consume_order_info）里面获取用最近一次消费今数、计消费次数、
计消费额这3 度的数据，并册视 “user_rfm_info”。行如下代码：
# 用 RFM 度数据
user_rfm_info = " select user_id,
last_1y_orders,
last_1y_order_amount,
last_payid_date
where data_date = "start_date_str "
and last_order_paid_time is not null
group by user_id,
last_1y_orders,
last_1y_order_amount,
last_payid_date"
根据前面的数据调度出的论，照最近一次购今数90 、购次数3次、消

费额500元来对用 3 度的价进行高低层次的划分。将划分的册到视
“user_rfm” 。
user_rfm = " select user_id,

case when datediff("+"'"+date_str+"'"+",latest_payid_date)<90 then '近'
else '远' end as latestday,
case when latest_1y_paid_orders < 3 then '低频'
else '高频' end as latest_ly_orders,
case when latest_1y_paid_order_amount < 500 then '低额'
else '高额' end as latest_ly_order_amount
from user_rfm_info
最后将用 3 度的分况划分到8 去，将插入到用表

，行如下本。
insert_table = "insert overwrite table dw. userprofile_attritube_all

partition(data_date="start_date_str",labelid='${lableid}')
select case
when latestday = '近' and latest_1y_orders = '高频' and latest_1y_order_amount = '高额' then
'ATTRITUBE_U_06_001'
when latestday = '远' and latest_1y_orders = '高频' and latest_1y_order_amount = '高额' then
when latestday = '近' and latest_1y_orders = '低频' and latest_1y_order_amount = '高额' then
when latestday = '远' and latest_1y_orders = '低频' and latest_1y_order_amount = '高额' then
when latestday = '近' and latest_1y_orders = '高频' and latest_1y_order_amount = '低额' then
when latestday = '远' and latest_1y_orders = '高频' and latest_1y_order_amount = '低额' then
when latestday = '近' and latest_1y_orders = '低频' and latest_1y_order_amount = '低额' then
else 'ATTRITUBE_U_06_008' end as labelid,
user_id as userid,
'' as labelweight
from user_rfm " # user_rfm 是上一步册的视
将上面3 本的行 “userprofile_RFM_value.py” 行：
# encoding: utf-8
# ATTRITUBE_U_06_001 重要价用 ATTRITUBE_U_06_002 重要持用

# ATTRITUBE_U_06_003 重要展用 ATTRITUBE_U_06_004 重要挽留用
# ATTRITUBE_U_06_005 一价用 ATTRITUBE_U_06_006 一持用
# ATTRITUBE_U_06_007 一展用 ATTRITUBE_U_06_008 一挽留用
import sys
import datetime
def main():
start_date_str = str(start_date)
user_rfm_info = "用 RFM 度数据视 "
user_rfm = "将用 3 度分视 "
insert_table = "插入用到目表"
spark = SparkSession.builder.AppName("user_rfm_model").enableHiveSupport().getOrCreate()
returned_df1 = spark.sql(user_rfm_info).cache()
returned_df1.createTempView("user_rfm_info") # 册视用 RFM 度上数据
returned_df2 = spark.sql(user_rfm).cache()
returned_df2.createTempView("user_rfm") # 册视将用 RFM划分到8
spark.sql(insert_table)
if __name__ == '__main__':
main()
提 Spark 务计该 “spark-submit--master yarn--deploy-mode client--

driver-memory 1g--executor-memory 2g--executor-cores 2--num-executors 50
userprofile_userid_RFM_value.py start-date”。
行完务后，询“SELECT*FROM dw.userprofile_attritube_all WHERE

data_date="20190115"AND labelid
in（'ATTRITUBE_U_06_001'，'ATTRITUBE_U_06_002'，'ATTRITUBE_U_06_003'）LIMIT
5”，到如 4-7 示的。
4-7　询用价
4.2.2　用度
务景，常需要根据用的况给用上高
、、低、，如划定时范，如将××
未访的用定义为用，将×× 内 ×次的用定义为高
用，需要务数据调研况来确定数。
下面一用度的来进行介。
首先需要划分用的期，期内，根据用的
况进一步将其划分为高、、低。务上划分用
的期时有种方。如：
1）根据用访率来划分：初始日期定的一首次访用，

观察后时内该用仍有访行为的占初始用的比。随着时
的推移，该比降低。当曲出现明显下降时可划分为
期（如 4-8 示）。
2）计用最后一次访与数二次访的时隔，可

认为这时隔后用本不再访，即用已。
后计时内用数的占比，计占比到一定比时可认为
分用这时后已。根据 4-8 示的用访率曲
，可认为30日为用的期。
4-8　用访率曲（示数据）
从 4-8可以看出，用 5 以后访率下降速度减，访
率已低 10%且后趋势持平稳。 5 为即为用
期，的关是用有访 App的行为。
从 4-9还可以看出，用最后一次访与数二次访隔30

日以上的用占比不 10%，可认为这访时隔的用已
，即最后一次访今30日以上的用可认为已。
根据上面介的划定用期的方，这里定该公司的

务景 30日为用期，近30日有访行为的用划定为
已用。 30日期内，进一步根据用访数来对用
度进行划分。
4-9　用最后一次访与数二次访的时隔（示数
据）
对数据的调研分，从 4-10可以看出， 10日以上的用

占近30日访用的20%，照二八划分的方这用划为高
用，进一步 5~10日的用划分为用， 1~5
日的用划分为低用。另，从GMV占比客单价来看，占20%
的高用贡献近60%的GMV，客单价明细高、低用
。
4-10　用数（示数据）
根据数据调研分的，以30日为界划分期，将最后一

次访今 30日的用划定为已用，30日内 10~30 的
用划定为高用，30日内 5~10 的用划定为用
，30日内少 5 的用划定为低用。根据划分的径开
相应的，行如下本：
计近30日有访行为的用及其访数，并册时视

“user_active”。
# 近30日全用
user_active = " select t.user_id,
count(*) as visit_num
from (select user_id,
data_date
from ods.user_visit_info
where data_date >= "month_day_ago"
and data_date <= "start_date "
and user_id is not null
group by user_id,
data_date
) t
group by t.user_id "
将视的数据插入到用表
dw.userprofile_attribute_all ，行如下代码：
user_active_status = " insert overwrite table userprofile_attritube_all
partition(data_date="data_date",labelid='${labelid}')
select t.labelid,
t.user_id as userid,
t.tagweight as labelweight
from (
select user_id,
case when visit_num <=5 then 'ACTION_U_05_001'
when visit_num >5 and visit_num<=10 then 'ACTION_U_05_002'
else 'ACTION_U_05_003' end as tagid,
visit_num as labelweight
from user_active
) t
将上面的两本的行
userprofile_active_churn_label.py 行：
# encoding: utf-8

import sys
import datetime
# ACTION_U_05_003 高
# ACTION_U_05_002
# ACTION_U_05_001 低
def main():
format = "%Y%m%d"
start_date = str(start_date)
strptime, strftime = datetime.datetime.strptime, datetime.datetime.strftime
date_str = datetime.datetime.strftime(datetime.date.today()-
datetime.timedelta(days=1),'%Y-%m-%d')
month_day_ago = strftime(strptime(start_date, format) -
datetime.timedelta(30), format)
user_active = "近30日全用视 "

insert_user_active = "插入用到目表"
spark =
SparkSession.builder.AppName("user_active_churn_label").enableHiveSupport().getOrC
reate()
returned_df1 = spark.sql(user_active).cache()
returned_df1.createTempView("user_active") # 册视
spark.sql(insert_user_active)
if __name__ == '__main__':
main()
提 Spark 务计该 “spark-submit--master yarn--

deploy-mode client--driver-memory 1g--executor-memory 2g--
executor-cores 2--num-executors 50
userprofile_active_churn_label.py start-date”。
行完务后，询“SELECT*FROM
dw.userprofile_attritube_all WHERE data_date="20190101"and
labelid
in（'ACTION_U_05_001'，'ACTION_U_05_002'，'ACTION_U_05_003'）
LIMIT 5”，到如 4-11 示的。
4-11　询用度
4.3　掘开
掘需要应用掘用相关特征，一用相关的
掘可以包预用男女别、预用击下单、判断用
已将要、判断用购好。
由掘需要进行数据调研，用行为特征进行特征工
程开、参数调以及上工程化调度开环，一开
期。
本一给平台上文章的来讲解掘的开
。
4.3.1　景
目站上积与疾病主题相关的文章、帖子文本数
据。由历原，这文章有内容归，也有上相应的
，不对内容进行理。现为对文章主题进行分，方
后期给读相关文章的用上对应的，需要先对历文
章、帖子（ 4-12）分整理，同时对文章上与其主题相关
的。
对站内的全历文章、帖子数据进行如下操：
1）根据已划定的文章内容，将这未分的文章动

划分到相应下。
2）为支持文章的集化理，根据文章内容动为文章上
与其主题相关的。
4-12　文章别划分
4.3.2　特征取及开
机学习以计理论为础，对已知的训练数据计
分从获规，再运用规对未知数据预。文本分题
上的本是： —— 工对一文进行准确分，为训练
集样本；训练——计机从好的文集掘出有效分的
规则，生成分；分 ——将生成的分应用待分的文集
，从获文的分。
首先对待分的文章切词理，将切好的词语写入定的径

下。对文本进行分是需要特征的，到数据后么取具有区
分度的特征关的一步。本用Bunch方建文本特征。
本的文章动分的程如 4-13 示。
4-13　文章分数据建程
文章分并的建主要包以下步骤：
1）对以划分好的文本集（训练集）待划分的文本集

（试集）进行文本的分词理，文本句划分为单词组；
2）将步骤1 切好的词组放入词包，展成，成bag

of word；
3）应用TF-IDF 计训练集文文章的TF-IDF权重矩
阵；
4）用朴贝斯分方对训练集数据进行训练，到参数对
试集数据进行分理。
用到的数据理术包文本分词、TF-IDF 、
朴贝斯分。
4.3.3　文本分词理
分词是将的字序列照一定的规范重新组成词序列的
程，文分词将一字序列（句子）切分成一独立的单词。为
建词空，首先需要对待分文本切词理，将切好后的
词语写入定的径下。这里，我用Python 的jieba工具对文
本进行分词，同时用jieba.analyse.extract_tags方（ TF-
IDF ）取文章的主题。
对训练集试集数据进行切词理后，将切词后的文本写入

定文件，代码行如下（文件cut_words.py）：
# -*- coding: UTF-8 -*-
import os
import jieba
import jieba.analyse # 导入提取关词的库
# 对训练集试集文本进行切词理,对试集数据上主题

# 存至文件
def save_file(save_path, content):
with open(save_path, "a",encoding= 'utf-8',errors='ignore') as fp:
fp.write(content)
# 读取文件
def read_file(file_path):
with open(file_path, "r",encoding= 'utf-8',errors='ignore') as fp:
content = fp.readlines()
# print(content)
return str(content)
# 取试集的主题关词
def extract_theme(content):
themes = []
tags = jieba.analyse.extract_tags(content, topK=3, withWeight=True, allowPOS=\
['n','ns','v','vn'],withFlag=True)
for i in tags:
themes.append(i[0].word)
return str(themes)
def cast_words(origin_path, save_path, theme_tag):

'''
train_words_path: 原始文本径
train_save_path: 切词后文本径
:return:
'''
file_lists = os.listdir(origin_path) #原文径
for dir_1 in file_lists: # 到文件

file_path = origin_path + dir_1 + "/" #原始文件径
seg_path = save_path + dir_1 + "/" #切词后文件径
if not os.path.exists(seg_path):
os.makedirs(seg_path)
detail_paths = os.listdir(file_path)
for detail_path in detail_paths: # 到文件下具文件径
full_path = file_path + detail_path #原始文件下文径
file_content = read_file(full_path)
file_content = file_content.strip() # replace("\r\n", " ")
# 删除换行
file_content = file_content.replace("\'", "")
file_content = file_content.replace(" \ n ", "")
content_seg = jieba.cut(file_content) # 为文件内容分词
if theme_tag is not None:

print("文件径:{} ".format(theme_tag + detail_path))
theme = extract_theme(" ".join(content_seg)) #theme为该文章主题关
词
print("文章主题关词:{} ".format(theme))
save_file(theme_tag + detail_path, theme) # 将训练集文章的主题关词
存到存储径
save_file(seg_path + detail_path, " ".join(content_seg)) # 将理后的文

件存到分词后语料目
if __name__ == "__main__":
# 对训练集进行分词
train_words_path = './train_words/'
train_save_path = './train_segments/'
cast_words(train_words_path,train_save_path,theme_tag=None)
# 对试集进行分词取文章主题
train_words_path = './test_words/'
train_save_path = './test_segments/'
theme_tag_path = './theme_tag/' #存放试集文章主题径
cast_words(train_words_path, train_save_path, theme_tag=theme_tag_path)
行程序后，训练集试集对应文件下未理的原始文

被切词理，并将切词后的文本写入新建立的文件下（ 4-14）。
4-14　切词后的文本文件
4.3.4　数据理
为后生成词空，这分词后的文本需要
换成文本并对象化。这里用Scikit-Learn库的Bunch数
据，将文本存储成。Bunch是一 “字典” 的数据，
实化Bunch的时定义Bunch 包的key ，用时为key参
数赋 value 。
本定义：Bunch（label=[]，filepath=[]，contents=
[]）。其参数：
·label：训练集文本归属的别，如：“ 尿病”“

癌”“白癜风”。
·filepath：文件的存储径。
·contents：存训练集试集一种别下的文本内容。
代码行如下（文件word_to_bunch.py）：
# -*- coding: UTF-8 -*-
import os
import pickle
import time
from sklearn.datasets.base import Bunch
'''
label: 文章
filepath: 文章径
contents: 分词后的文章
'''
def read_file(file_path):
with open(file_path, "r",encoding= 'utf-8',errors='ignore') as fp:
content = fp.readlines()
return str(content)
def word_to_bunch(train_save_path, train_bunch_path):

bunch = Bunch(label=[], filepath=[], contents=[])
all_labels = os.listdir(train_save_path)
for label in all_labels:
detail_path = train_save_path + label + '/'
all_details = os.listdir(detail_path)
for all_detail in all_details:
file_detail_path = detail_path + all_detail # 文件具径
bunch.label.append(label)
bunch.filepath.append(file_detail_path)
contents = read_file(file_detail_path)
bunch.contents.append(contents)
with open(train_bunch_path, "wb+") as fp:
pickle.dump(bunch, fp)
print("创建完成")
if __name__ == "__main__":
train_save_path = './train_segments/'
train_bunch_path = "train_bunch_bag.dat"
word_to_bunch(train_save_path, train_bunch_path)
test_save_path = './test_segments/'
test_bunch_path = "test_bunch_bag.dat"
word_to_bunch(test_save_path, test_bunch_path)
该程序将文的、存储径、文章内容写入Bunch数据

，后面对训练集、试集数据的建、分。行完程序
后生成train_bunch_bag.dat test_bunch_bag.dat数据文件。
4.3.5　文本TF-IDF权重
该步骤将上一步存储的化数据建成一 TF-IDF词空
，空的词来该训练集，词的权重矩阵也一并存下
来。建的程需要将训练集的词空赋给试
集，代码行如下（文件tfidf_space.py）：
# -*- coding: UTF-8 -*-
from sklearn.feature_extraction.text import TfidfVectorizer

from sklearn.feature_extraction.text import TfidfTransformer
import pickle
from sklearn.datasets.base import Bunch
# 读取bunch对象
def read_bunch(path):
with open(path, "rb") as fp:
bunch = pickle.load(fp) # joblib 同样可用存储文件
return bunch
# 读取文件对象
def read_file(path):
bunch = fp.read()
return bunch
# 写入bunch对象
def write_bunch(path,bunch):
with open(path, "wb") as fp:
pickle.dump(bunch,fp)
# 训练集
def train_tfidf_space(stopword_path, train_bunch_path, train_tfidf_data):
'''
stopword_path: 用词径
train_bunch_path: 训练集语料径
train_tfidf_data: 训练集tfidf数据径
'''
bunch = read_bunch(train_bunch_path)
stopwords = read_file(stopword_path).splitlines() # 读取用词
tfidf_space = Bunch(label=bunch.label, filepath=bunch.filepath,
contents=bunch.contents, tdm=[], space={})
vectorizer = TfidfVectorizer(stop_words=stopwords, sublinear_tf=True,
max_df=0.5)
tfidf_space.tdm = vectorizer.fit_transform(bunch.contents)
tfidf_space.space = vectorizer.vocabulary_
write_bunch(train_tfidf_data,tfidf_space)
# 试集
def test_tfidf_space(stopword_path, test_bunch_path, test_tfidf_data,
train_tfidf_data):
'''
stopword_path: 用词径
test_bunch_path: 试集语料径
test_tfidf_data: 试集tfidf数据径
train_tfidf_data: 训练集tfidf数据径,将训练集的词空赋给试集
'''
bunch = read_bunch(test_bunch_path)
stopwords = read_file(stopword_path).splitlines() # 读取用词
tfidf_space = Bunch(label=bunch.label, filepath=bunch.filepath,
contents=bunch.contents, tdm=[], space={})
train_bunch = read_bunch(train_tfidf_data) #训练集tfidf数据
tfidf_space.space = train_bunch.space # 将训练集的词空赋给试集
vectorizer = TfidfVectorizer(stop_words=stopwords, sublinear_tf=True,
max_df=0.5, vocabulary=train_bunch.space)
tfidf_space.tdm = vectorizer.fit_transform(bunch.contents)
write_bunch(test_tfidf_data, tfidf_space)
if __name__ == '__main__':
# 训练集数据理
stopword_path = "./chinese_stop_words.txt" # 用词表的径
train_bunch_path = './train_bunch_bag.dat'
train_tfidf_data = './train_tfdifspace.dat'
train_tfidf_space(stopword_path, train_bunch_path,train_tfidf_data)
# 试集数据理
test_bunch_path = './test_bunch_bag.dat'
test_tfidf_data = './test_tfidfspace.dat'
test_tfidf_space(stopword_path, test_bunch_path,
test_tfidf_data,train_tfidf_data)
行该程序将训练集试集数据换为TF-IDF词空

的实，其 space表示词空，tdm表示训练集试集数
据的TF-IDF权重矩阵。前文提到，行程序时需要将训练集的
词空赋给试集数据，该的试集函数的
test_tfidf_space 实现。
行完程序后生成train_tfidfspace.dat test_tfidfspace.dat
数据文件。
4.3.6　朴贝斯分
一的分方可应用文本分，常用的分包
朴贝斯分、支持机分。
本对文本分，从度、率 F- 度三角度进行
评价。设a表示分将入文本正确分到别的数；b表
示分将入文本误分到别的数；c表示分将入
文本误排除别的数；d表示分将入文本正确
排除别的数；则该分的率、正确率 F-
度的计公如下：
· 度：p=a/（a+b）×100%
· 率：r=a/（a+c）×100%
·F- 度：F=（2×p×r）/（p+r）
从行来看，度为0.941、率为0.933、F- 度为

0.933，分效还不的。
该程代码行如下（文件nbayes.py）：
# -*- coding: UTF-8 -*-
import pickle
from sklearn.naive_bayes import MultinomialNB
import warnings
from sklearn import metrics
warnings.filterwarnings("ignore")
# 读取bunch对象
def read_bunch(path):
bunch = pickle.load(fp) # joblib 同样可用存储文件
return bunch
# 分存至文件
def save_file(save_path, content):
with open(save_path, "a",encoding= 'utf-8',errors='ignore') as fp:
fp.write(content)
# 朴贝斯分
def nbayes_classify(train_set, test_set):
'''
train_set: 训练集样本数据
test_set: 试集样本数据
:return: 试集样本分
'''
clf = MultinomialNB(alpha=0.5)
clf.fit(train_set.tdm, train_set.label) # 训练
predict = clf.predict(test_set.tdm)
return predict
def classification_result(actual, predict):

print(' 度:{0:.3f}'.format(metrics.precision_score(actual,
predict,average='weighted')))
print(' :{0:0.3f}'.format(metrics.recall_score(actual,
print('f1-score:{0:.3f}'.format(metrics.f1_score(actual,
if __name__ == '__main__':
# 导入训练集
train_path = './train_tfdifspace.dat'
train_set = read_bunch(train_path)
# 导入试集
test_path = "./test_tfidfspace.dat"
test_set = read_bunch(test_path)
predict = nbayes_classify(train_set, test_set) #

classification_result(test_set.label, predict)
print('-' * 100)
# 存径
save_path = './classify_file.txt'
for label, filename, predict in zip(test_set.label, test_set.filepath ,
predict): #test_set
print(filename, "\t实际别:",label,"\t-->预别:", predict)
save_content = filename + "\t实际别:" + label + "\t-->预别:" + predict
+ '\n'
save_file(save_path, save_content) # 将分写入txt
行程后可 Pycharm控制台下看到行效，如 4-15 示。

4-15　文本分行效
至此，文本分程的数据理方就介完
，下面 4-16的文件再单顾下。
4-16　文件
4.4　计开
前面3 介的是离的开，即次ETL 务，一为T+1日
的数据。本内容介实时数据的开。实时订单分，
给首次登 App的新用弹窗推送、放包，实时分用
景并进行推送有广的应用，这里用Spark Streaming开相关
的实时数据。
4.4.1　建
Spark Streaming是Spark Core API的展，支持实时数据的
理，并且有可展、高、容的特。数据可以从Kafka、
Flume 来获取，可以用map、reduce、window 高函
数对务进行理。最后，理后的数据被推送到文件、数
据库（如 4-17 示）。
内 Spark Streaming接收实时数据并将数据分成 batch

次，后由Spark 擎进行理，生成。Spark
Streaming提一高层象，称为Discretized Stream
Dstream，它表示的数据。Dstream可以 Kafka、Flume 来
的数据创建，也可以其 Dstream上应用高操来创建
（如 4-18 示）。
4-17　Spark Streaming计（ Spark官）
4-18　Spark Streaming 理数据的特（ Spark官）

4.4.2　Kafka 介
Kafka的核功是为分布消件。Kafka集由
Broker server组成，其，消的送称为Producer；消的消费
称为Cousumer；Broker是消理的， Broker组成Kafka集
；Topic是数据主题，用来区分不同的务，消费订不
同的Topic来消费不同主题的数据， Topic 被分为
Partition，Partition是topic的分组， Partition 是一有序
列；offset用定位消费 Partition 消费的位。
Kafka对用Topic ，生 Topic里写入消，消费从

Topic 读取消。一 Topic由 Partition组成。
生 Brokers 定的Topic 写消，消费从Brokers里面

取定的Topic消，后进行务理。
4-19表示一 Topic 写入数据，写入的数据被加到

Partition的尾。当Consumer消费消时， Partition下的
Offset 从小到的顺序前驱动。
4-19　offset写入记
Consumer消费消时，还需要定这 Consumer属

Consumer Group（如 4-20 示）， Consumer Group消费一
Topic下的有Partition数据。 Consumer实属一
Consumer Group，一条消被同一 Consumer Group里的一
Consumer实消费，不同的Consumer Group可以同时消费同一条数
据。开时需要对应的代码定Groupid。
4-20　不同的Consumer Group消费消
4.4.3　Spark Streaming集成Kafka
Spark Streaming可以 Receiver Direct两种来集成
Kafka。
Receiver 下，Spark Streaming 为Consumer 取Kafka

的数据，将获取的数据存储 Executor内存。可为数据
造成内存出，以用预写日机制（Write Ahead Log）将
出分写入到HDFS上。接收数据，当一 Receiver不及时接收
有的数据时，再开其 Receiver接收，它须属同一
Consumer Group，这样可以提高Streaming程序的（如 4-21
示）。整来说，Receiver 效率低，容易数据，生环
用少。
4-21　Receiver 消费数据
Direct 下，Spark Streaming直接读取Kafka的topic 的

有Partition，获取Offset 。Spark Streaming 有一
Inputdstream，这 Dstream的一分区对应着Kafka 需要消费的
Topic的一分区，并且从Kafka 读取数据。 Direct 下，是
Spark Streaming 己消费的Offset，消除与Zookeeper不一致
的况，理出程 Exactly-once （如 4-22 示）。
4-22　Direct 消费数据
对比来看，Receiver 是 Zookeeper来接Kafka 列的，

Direct 则直接接Kafka 来获取消。Receiver 消费
Topic 的offset是存 Zookeeper ，Direct 消除与
Zookeeper不一致的况， Direct 可以 Spark Streaming应
用完全到Exactly-once语义况。
Spark Streaming对Kafka的集成有两版本，一是0.8版本，另

一是0.10以上的版本，0.10以后留 Direct 。这里介的
是 Direct 开 Spark Streaming程序。
4.4.4　开及工程化
实时的理程主要包 4 分：
·读取数据，这里讲解消费Kafka 的数据；
·解数据，即解消费的Kafka数据；
·将解后的数据存储到定位（如MySQL、HDFS、HBase

）；
·存储消费的Offset，Direct 下需要存消费到的位。
1.主函数
首先导入需的赖：
import com.alibaba.fastjson.JSON
import com.utils.{KafkaParaUtils, ParamsUtils, SparkUtils}
import org.apache.spark.streaming.kafka.HasOffsetRanges
import org.joda.time.DateTime
主函数里，首先创建一 StreamingContext对象，这是Streaming
功的主要入。StreamingContext对象从现有SparkConf对象创
建。这里设 batch时隔为5秒。
object MainWorkflow {

val sparkConf = new SparkConf().setAppName("STREAMING-WORKFLOW ")
.set("spark.testing.memory","2147480000")
.set("spark.streaming.kafka.maxRatePerPartition","200")
val sc = new SparkContext(sparkConf)
val ssc = new StreamingContext(sc, Seconds(5)) // 时隔5秒
// 入Kafka的Topic，从Kafka 取数据
val message = new
SparkUtils(ssc).getDirectStream(ParamsUtils.kafka.KAFKA_TOPIC)
// 记 offset 移
message.foreachRDD( rdd => {
println(" =====================> count: " + rdd.map(x => x + "1").count())
val offsetRanges = rdd.asInstanceOf[HasOffsetRanges].offsetRanges // 获取

移
/**
* OffsetRange 是对topic name、partition id、fromOffset(当前消费的开始移)、
untilOffset(当前消费的束移)的封装
* * 以OffsetRange 包的有：topic名字、分区ID、开始移、束移
*/
// 更新移
KafkaParaUtils.updateOffset(offsetRanges, ParamsUtils.kafka.KAFKA_GROUPID)
// 印移
println("OffsetRange =====> ")
for (offset <- offsetRanges) {
println(offset.topic, offset.partition, offset.fromOffset,
offset.untilOffset)
}
}
// 对Message的务理，下代码详细介
// 开始计
ssc.start()
ssc.awaitTermination()
}
}
上面的程序，将从Kafka 读取的数据赋给Message，后记

Offset的移。这里印出Offset 移包 Topic主题、分
区id、开始移束移（如 4-23 示）。
4-23 印出当前消费的topic是“countly_imp”，partitionid
为0～11，三列记的是本次消费前的移，列记的是本次
消费后的移。
将从Kafka 获取的数据进行务理，解后存入定的库表

。示代码如下：
// 务理
val parameter = message.flatMap( line=> {
// 来
val src = try{
JSON.parseObject(line._2).getJSONObject("c").get("src")
} catch {
case ex:Exception => "(unknown)"
}
val cookieid = try {

new
DateTime(JSON.parseObject(line._2).getJSONObject("i").getLong("timestamp")*1000).t
oDateTime //将Json字化为相应的对象 .getString("kid")
} catch {
case ex: Exception => "(unknown)"
}
//组成一字
val data = src + "##" + cookieid
Some(data) //some是一定有的, some.get获取 ,如有 , 报常
}).map(_.split("##")).map(x => (x(0),x(1)))
4-23　Offset 移
2.从Kafka 读取数据
上面的主函数定义从Kafka 读取数据的方

getDirectStream：
val message = new SparkUtils(ssc).getDirectStream(ParamsUtils.kafka.KAFKA_TOPIC)
接下来代码介 getDirectStream方的实现方。
消费消费Kafka的Offset数据记 Zookeeper ，开
Streaming程序消费Kafka数据时，先从Zookeeper 最近一次消费
的Offset位，如有记当前Topicid+Groupid消费消费Offset的
位，则从记开始消费Offset。如有记，则从当前
Offset最开始消费。代码实现如下：
class SparkUtils(ssc: StreamingContext){

def getDirectStream(topics: String): InputDStream[(String,String)] ={
val groupId = ParamsUtils.kafka.KAFKA_GROUPID
// 获取offset位
val fromOffsetMap = KafkaParaUtils.readOffSet(groupId, topics.toString)
println(s"fromOffsetMap----------------==>${fromOffsetMap.size}")
val size = fromOffsetMap.size // 读取到的Offset 小
// 计 Offset存储记的小，如有记则从记消费Offset，如有记则从Offset当前位
最开始消费
val inputDS : InputDStream[(String, String)] = if (size > 0){
val messageHandler = (mmd: MessageAndMetadata[String,String]) => (mmd.key,
mmd.message)
KafkaUtils.createDirectStream[String, String, StringDecoder, StringDecoder,
(String,String)](
ssc, ParamsUtils.kafka.KAFKA_PARAMS, fromOffsetMap, messageHandler)
} else {
KafkaUtils.createDirectStream[String, String, StringDecoder, StringDecoder](
ssc, ParamsUtils.kafka.KAFKA_PARAMS, topics.split(",").toSet)
}
inputDS
}
}
上从Zookeeper 获取Offset位的方
KafkaParaUtils.readOffSet的实现如下：
// 读取Kafka的Offset 移
def readOffSet(groupId:String, topic:String): Map[TopicAndPartition, Long] = {
println("------------> 读取移 ")
val zkClient = getZKClient
// Kafka分区
val OffsetMap = collection.mutable.Map.empty[TopicAndPartition, Long]
try {
val partitionSeq = KafkaFunction.kafkaPartitionByTopic(zkClient, topic)
partitionSeq.map { p =>
// 默认径
// println(s"zKGroupTopicDirs:
${KafkaFunction.zKGroupTopicDirs(groupId,topic)}\t;") //zKGroupTopicDirs
val offsetPath = offsetPathFun(topic, groupId, p)
println(s"offsetPath: ${offsetPath}")
// 移询
val offsetTP = KafkaFunction.offsetStatTuple(zkClient,offsetPath)
println(s"offsetTP:${offsetTP}")
if (offsetTP != null) {
OffsetMap.put(TopicAndPartition(topic, p), offsetTP._1.toLong)
}
}
} finally {
zkClient.close()
}
OffsetMap.toMap
}
对应，将消费后当前的Offset 移存储到Zookeeper ，实现

如下：
//更新移
def updateOffset(offset:Seq[OffsetRange], groupId:String): Unit ={
val zkClient = getZKClient
try {
offset.foreach{ off =>
val offsetPath = offsetPathFun(off.topic, groupId, off.partition)
println(s"offsetPath: ${offsetPath}")
KafkaFunction.updatePersistentData(zkClient, offsetPath, off.untilOffset)
}
} catch {
case ex: Exception => ex.printStackTrace()
} finally {
zkClient.close()
}
}
开调试完成后，将Scala工程 jar包并提 Spark 务。可看到

Streaming实时读取上数据（如 4-24 示）。
从上面的监控可以看出，Streaming程序设定为 20s 取一

次kafka数据，目前已运行16小时，完成 2996 次数据的消费。
表，“Input Rate”代表秒接收数据的数，目前致20～30/
条秒；“Scheduling Delay”代表调度延时，目前实时消费数
据还有延；“Processing Time”代表理次数据用的时
。
4-24　Streaming yarn监控
4.5　用特征库开
为进一步从度富用特征，掘用的相关行为，除
开用，一还开用的特征库。一方面为化
推荐、准营、分应用提层数据，另一方面也可以
削减不同特征建时的冗加工。
单来说，用特征库就是对用一次的不同行为（如览、

收藏、搜、购）及该行为对应的（）进行详细
的记，以从用的行为特征掘用的好。与开用
相比，用特征库可以对数据进行计，从度分用特
征，用则“相对静 ” 记用当前的状。
如，用常览购奶、尿不、婴儿，则她

可是一孩子的妈妈；用常览、收藏、搞笑、子视
频，可用掘用的内容爱好；用对女装、甲的
览、购、收藏行为数据，用别分的掘时有效。
用画像建的程，为高效掘用特征，需要进行用特
征库的规划开。
4.5.1　特征库规划
用与相关行为的日数据包用对行为的明细。
下面一用特征库的建进行说明。该用行为特征库规
划ER 如 4-25 示。
4-25　用行为特征库规划ER
根据应用需要，创建表dw.cookie_feature_event_append来建
用特征，表如表4-2 示。
表4-2　建用特征表
·cookie_id：用访 id。
·goods_id： id，用行为对应的。
·goods_name：名称，用行为对应的。
·tag_type：，可以归属的三进行划分，

如戏本、薄本、机盘表示不同的3C 。
·event_value：用当日行为次数计，如用日览

牌记本电 3次，该字记为3。
·data_date：数据日期，日进行分区。
·act_name：用行为事件名称，如击、搜、提。
该表的act_name事件名称对应的数据来可致分为3种：
1）日数据：用访页面时击、搜
关词日上报记；
2）访日数据：用访页面，访时可以

从访日数据掘；
3）订单数据：用订单及订单里面的。
其，事件名称可以一表来记用不同的行为事件，

行为事件划分越细，用平台的行为捕捉越全面，如表4-3
示。
表4-3　记用不行为事件的表
4.5.2　数据开
数据开程，主要从订单表、访日表、日表对
用当日的行为（加购、击、览、）取数据，后
加到用特征库对应表（本
dw.cookie_feature_event_append）的当日分区下，如 4-26 示。
4-26　用行为特征库开
本 ods.page_event_log是日表，从日表获
取用击相关行为的事件；从订单表dw.order_info_fact 获取
cookieid当日与相关的订单数据；从cookie的访日表
ods.page_view_log 获取cookieid当日访详页相关数据。
根据用行为事件进行数据开，分别插入用行为特征库，

分代码示如下（scala语言）：
1.用加购行为带来的
// 用加购行为带来的
val AddToBagBehavior = (dateStr: String) =>
s"""
| INSERT INTO dw.cookie_feature_event_append PARTITION(data_date='${dateStr})
| SELECT t1.cookieid AS cookie_id,
| t1.product_id AS tag_id,
| t1.product_name AS tag_name,
| 'product' AS tag_type_id,
| count(1) AS act_num,
| t2.eventkey AS act_name
| FROM dw.order_info_fact t1
| INNER JOIN ods.page_event_log t2
| ON (t1.cookieid=t2.cookieid and t1.product_id=t2.product_id)
| WHERE t2.data_date='${dateStr}'
| AND t1.cookieid <> ''
| AND t1.product_id <> ''
| AND t2.eventkey IN
| ('$addtobag_click', // 加购击
| '$addtobag_picture_click ', // 加购片击
| '$shopping_minus_click ', // 购物击减号
| '$shopping_plus_click ', // 购物击加号
| '$addtobag_submit_click', // 加购物提
| '......')
| GROUP BY t1.cookieid,
| t1.product_id,
| t1.product_name,
| t2.eventkey
""".stripMargin
2.用击行为带来的
// 击行为事件
val ClickBehavior = (dateStr: String) =>
s"""
| INSERT INTO dw.cookie_feature_event_append PARTITION (data_date='${dateStr})
| SELECT cookieid AS cookie_id,
| product_id AS tag_id,
| product_name AS tag_name,
| eventkey AS act_name
| FROM ods.page_event_log
| WHERE data_date='${dateStr}'
| AND cookieid <> ''
| AND product_id <> ''
| AND eventkey IN
| ('$product_click', // 物击
| '$pageview_brand_click', // 详页牌击
| '$pageview_brandgoods_click', // 详页牌推荐击
| '$pageview_details_click', // 详页detail 看
| '$pageview_gallery_click', // 详页片击
| '......')
| GROUP BY cookieid,
| product_id,
| product_name,
| eventkey
""".stripMargin
3.用搜行为带来的
// 搜行为事件
val SearchBehavior = (dateStr:String) =>
s"""
| INSERT INTO dw.cookie_feature_event_append
PARTITION(data_date='${dateStr})
| SELECT cookieid AS cookie_id,
| product_id AS tag_id,
| product_name AS tag_name,
| eventkey AS act_name
| FROM ods.page_event_log
| WHERE data_date='${dateStr}'
| AND cookieid <> ''
| AND product_id <> ''
| AND eventkey IN
| ('$search_product', // 搜击
| '$search_result', // 搜关词击
| '......')
| GROUP BY cookieid,
| product_id,
| product_name,
| eventkey
""".stripMargin
提 Spark 务行后，数据刷到用特征库对应表（本

dw.cookie_feature_event_append）可看到数据如 4-27 示。
4-27　用行为特征库数据
下面两询子。
1：询近7日览（id=6926512）详页 10次的用

，取这分用对其进行营，询语句如下：
select cookieid
from dw.cookie_feature_event_append
where data_date >= ‘20180201’
and data_date <= ‘20180208’
and event_name = ‘$goodsdetail_view’
and goodsid = 6926512
having sum(act_num)>=10
2：询近7日览、收藏、关 “ 婴” 的用，
取这分用对其进行消推送营，询命令如下：
select cookieid
from dw.cookie_feature_event_append
where data_date >= ‘20180201’
and data_date <= ‘20180208’
and tag_type = ‘ 婴’
and event_name in
(‘$goodsdetail_view’,‘$wishlist_add’,‘$goods_click’,‘$addtobag_click’)
用特征库，数据分师数据开可以从度

取用行为数据进行掘。
特征库的开程，除从用度开特征库，同样也
对、家开相应的特征库。特征库可以更方对用
、、家建，并分特征及进行应用。
4.5.3　其特征库规划
除要对用特征库进行开，也需要本公司的进行特
征库的规划与开。
下面提一种特征库的开度设计方，如表4-4 示。

特征库的开可以从目、价、曝光、击、加购、
、额、评论、退货度展开。
表4-4　特征库设计方示
4.6　权重计
用平台上的不同行为具到用层面有着不同的行为权
重。本景，用购的行为权重要比用加到购
物、收藏、览的行为权重次要高。具到
层面，需要用画像建与运营密切，务景
给不同的行为定权重（本是杂程度越高的行为价越
），同时需要虑本全的权重属。下面介
主观权重分 TF-IDF 的权重计方。
4.6.1　TF-IDF词空
TF-IDF是一种计方，用以评一字词相对一文件集
一语料库的其词语的重要程度。字词的重要随着它文件
集出现的次数的加成正比加，同时随着它语料库出现的频
率成比下降。本章介的，对用来说，其上同
一出现的次数越，该对这用来说越重要，该
全用的有生的集出现的次数越，该的重
要越低。
用TF-IDF方来表示（Tag，T）用（User，P）的

关：其 w（P，T）表示一 T被用记用 P的次数，
TF（P，T）表示这记次数有记用 P的占的比，
TF计公如下：
一定程度上，这比映用 P被认为与 T有关的度

。这度越说明更况下用 P与 T 的关越
密。
IDF（P，T）表示 T的稀程度，即这全用的

有出现的率。对一 T来说，如它本出现的率就比
小，却被用来记用 P，这用 P与 T 的关更加
密。IDF的计公如下：
这样，用 P T 的关数为TF（P，T） IDF（P，T）
的积，计公为：
rel（P，T）=TF（P，T）×IDF（P，T）
一单的子：如 4-28 示，A～C代表用，a～e代表

，数字代表A～C用上该的数。以用 A为，A 上有a、
b、d、e 4 共4+3+0+5+3=15 ，a 对A用的TF 为4/15。全
用共有a 4+5+0=9 ，全用的全为
4+5+3+6+5+5+6+3+4=41 ，a 的IDF 为41/9。A用上的a
TF×IDF 为4/15×41/9=1.21。
至此， TF-IDF 出用与的权重关。是

此时计用的权重还有束，当前的权重是未虑务
景，虑用与的关出来的，这显是不的。
4-28　TF-IDF 计权重示
4.6.2　时衰减数
当用数据到的密集程度后，用上的对应的属
表现出高的稳定，这种稳定与用期行为成的真
实特征相匹。是也存变化的适应的题。
如，用主要从事软件开，此其电站上
的搜、收藏、购行为主要集与程相关的内容上。，
如该用近期内为运营岗位，则其近期的览与搜就突变
为与运营相关的内容。是，将用画像的属描从程为运营
并不由此立刻实现，仍需要时的用行为的积，直至运营
下积比程更的子分。是换期，仍对用
推送程相关，这显离用的真实关内容。
为解决这题，我入时衰减这参数，根据生时

的先后为用行为数据分权重。时衰减是随着时的推移，用
的历行为当前行为的相关不断减，建立与时衰减相关
的函数时，我可套用牛顿冷却定数学。牛顿冷却定描的
景是：一的物一度比其度低的环下，这
的物的度是要降低的，物的度要上升，最后物的
度的度到平衡，这平衡的程，物的度
F（t）随着时 t的现数衰减，其度衰减公为：
F（t）=初始度×exp（–× 隔的时）
其，为衰减常数，可归计出。如：定45分后
物度为初始度的0.5 ，即0.5=1×exp（–×45），
=0.1556。
用画像的应用，用的行为随时衰减，行
为不随时衰减。一来说，用操的杂程度越高，其行为随
时衰减的越小，我可视该行为不随时衰减（如下单、
购行为）。对随时衰减的行为，计行为权重时需虑时
，衰减方可套用牛顿冷却定；对不随时衰减的行为则不
虑时的，如表4-5 示。
表4-5　用行为受时的
4.6.3　权重
用的权重最终还是需要进一步的务景、
离当前时、用行为生该的行为次数，最终到用
权重的分公：
用权重=行为权重×时衰减×用行为次数×TF–IDF计

权重
公参数的义如下：
·行为权重：用览、搜、收藏、下单、购不同行

为对用言有着不同的重要。一言，操杂度越高的行为
权重越。该权重一由运营数据分主观给出。
·时衰减：用行为受时不断减，行为时现

越远，该行为对用当前行为来说义越小。
·行为次数：用权重计，用与该生的
行为次数越，该对用的越。
·TF-IDF计权重：由对用的重要与该

全的重要的积出的客观权重。
权重的计公，可以对用特征库

（dw.cookie_feature_event_append）的行为数据计权重，
出与用行为相关最的。
4.7　相度计
根据的相关关进行也是画像开常到的一
题。如务景对进行有效，不同的公司务
景有不同的理方。本内容一来介如对用
上的建“同现矩阵”的方对进行。
4.7.1　景
同现矩阵是的关程度，这种关程度由用
上的决定。这里的同现是同时出现，即一用被
上A 的同时被上B 。如有用同时被上A、B ，
么A、B 可种相关（ 4-29 示）。
4-29　相关计（示）
从 4-30 可以看到，当前有用，用
上被上一。 B C 用上同时出现，
此可以初步认为 B C存一定程度上的相关。
熟知的“ 尿布”的子，一家市现用消费同时
购尿布，是将尿布摆一出，现这两种
的加。该景这两种 / 同时出现用
的上，么我可以初步认为这两种 / 存一定程度上的相
关。
4-30　用到相关（示）
本，用医疗上的行为给其带来诸，
的可以划分为医生、医院、科室、疾病、药不同种
。现需要对疾病到其对应的科室下面。
根据同现矩阵的方，对4.5 创建的用行为特征库数据进行

度掘，根据用行为的相关，对疾病进行。
用行为特征库表设计：
CREATE TABLE `dw.cookie_feature_event_append`(

`cookie_id` string COMMENT 'cookie_id',
`tag_id` string COMMENT ' id',
`tag_name` string COMMENT ' 名称',
`tag_type_id` string COMMENT ' 务来划分 ',
àct_num` string COMMENT '行为次数',
àct_name` string COMMENT '事件名称如 / 赏/加购/ 击/收藏/ 览行为')
COMMENT '用行为特征库'
PARTITIONED BY (`data_date` string COMMENT '数据日期')
4.7.2　数据开
首先从用行为特征库取一时内被上“疾病”
的用明细数据，明细数据包用 id、疾病关
。
create table dw.tag_relation_function_01

as
select cookie_id,
tag_id,
tag_name,
act_num,
tag_type_id,
act_name
from dw.cookie_feature_event_append --用行为特征库
where data_date >='2019-01-01'
and data_date <='2019-04-01'
and tag_type_id ='疾病' -- A 疾病
取同一时内被上“科室” 的用明细数

据。

as
select cookie_id,
tag_id,
tag_name,
act_num,
tag_type_id,
act_name
from dw.cookie_feature_event_append --用行为特征库
where data_date >='2019-01-01'
and data_date <='2019-04-01'
and tag_type_id ='科室' -- B 科室
计 “疾病” 下疾病对应的用数。

as
select tag_id,
tag_name,
count(distinct cookie_id) user_num
from dw.tag_relation_function_01
计 “科室” 下科室对应的用数。

as
select tag_id,
tag_name,
count(distinct cookie_id) user_num
计同时被上疾病科室的用数的同现矩阵（见

4-31）。
4-31　疾病与科室的同现矩阵（示）
本如下：
--计疾病、科室两共同关数的同现矩阵：

as
select t.tag_id_1, -- 疾病 id
t.tag_name_1, -- 疾病名称
t.tag_type_id_1, -- ‘疾病’
t.tag_id_2,
t.tag_name_2, -- 科室名称
t.tag_type_id_2, -- 科室
t.num -- 共有少
from (
select t1.tag_id as tag_id_1,
t1.tag_name as tag_name_1,
t1.tag_type_id as tag_type_id_1,
t2.tag_id as tag_id_2,
t2.tag_name as tag_name_2,
t2.tag_type_id as tag_type_id_2,
count(distinct t2.user_id) as num
from dw.tag_relation_function_01 t1
cross join dw.tag_relation_function_02 t2
where t1.tag_id <> t2.tag_id
group by t1.tag_id,
t1.tag_name,
t1.tag_type_id,
t2.tag_id,
t2.tag_name,
t2.tag_type_id
) t
用相度函数计两两的相关。相度函数

空两角的来衡两差的小，
越接近1，表明两的相越。本景一单
子：疾病被 10000 用上，科室被
20000 用上，有5000 用的上同时有该疾病科室
，则该疾病科室的相度为5000/sqrt（10000×20000）。
本如下：
-- 用相度函数计两两的相关
as
select t1.tag_id_1, --疾病 id
t1.tag_name_1, --疾病名称
t1.tag_type_id_1, --疾病
t2.user_num_1, --疾病数
t1.tag_id_2,
t1.tag_name_2,
t1.tag_type_id_2 ,
t3.user_num_2, --科室数
t1.num as num, --同时有两的用数
(t1.num/sqrt(t2.user_num_1 * t3.user_num_2)) as power,
row_number() over(order by (t1.num/sqrt(t2.user_num_1 * t3.user_num_2))
desc) rank
from dw.tag_relation_function_05 t1
left join (select tag_id,
user_num as user_num_1
from dw.tag_relation_function_03 --疾病对应的用数
) t2
on t1.tag_id_1 = t2.tag_id
left join (select tag_id,
user_num as user_num_2
from dw.tag_relation_function_04 --科室对应的用数
) t3
on t1.tag_id_2 = t3.tag_id
出与疾病相关最的科室，即将该疾病
归到相关最的科室下面。 row_number（）方出权重
最的科室顶，行如下。
-- row_number()方出权重最的科室并顶
as
select tag_id_1, --疾病 id
tag_name_1, --疾病名称
tag_id_2, --科室 id
tag_name_2, --科室名称
power
from (select tag_id_1,
tag_name_1,
tag_type_id_1,
tag_id_2,
tag_name_2,
tag_type_id_2,
power,
row_number() over(partition by tag_id_1 order by power desc) row_id
) t1
where t1.row_id=1
最后可以看到，小的试数据将疾病归到对应科

室下面的效还是比准确的（见 4-32）。
4-32　疾病与科室的相度计
4.8　组计
组计是画像开的一重要。本章前面几小
讲的是如开用上的一，当务方根据务规则应
用时，是需要组来创建对应的用的，此时需要
应用到组计。
4.8.1　应用景
这里看一组计的应用景， 4-33 用 A、B、C、
D、E已被上己特征的，务给“高价用
组” 放一券消费。根据运营验，定义 “高价
用组”的特征为：①女用；②25~35岁；③ 计消费5
次以上；④ 计消费500元以上；⑤ 度以上的用。可以
看到同时这条件的用为用 B、用 C、用 E。组计
的务就是根据务的规则，计出对应条件的用
。
4-33　组计景
组计的实现，来说分为3 程：
·读取不同组的计规则；
·将规则接成接入参数的询命令，接方进
行询；
·接询计时， Elasticsearch 询这条件的用
id，用 id 为rowkey去HBase 询这用上的。
4.8.2　数据计
务画像端可以组定（见 4-34），对
应关数据库将记该条规则包的用。
4-34　组定
记定规则的表主要包以下主要内容（ 4-35）：
· id：创建该条规则对应的一id 识。
· 名称：该条规则务定义上的名称。
· 规则：组规则包的及。
· 数：该对应的数。
·创建时：该规则的首次创建时。
· 改时：该规则的最近一次改时。
·是应用：该是应用到上。
4-35　组规则示
调用接询时，将规则接成字，

Elasticsearch 询该规则的用 id。如对上面id
为“100003”的，将其规则接成“ATTRITUBE_U_06_001，
6||ACTION_U_05_003，3||CONSUME_U_05_003，15”，为参数入接
。
本介一种组计用的解决方，来说包

两程：首先从关库表（如MySQL）读取务定的
规则，将规则接成接的入参数，后接请
Elasticsearch的方询对应的用 id。
4.9　数据服务层开
数据最终的目的是出数据库，应用到务营景
。一开完画像后，还需要数据务的
，化的方将数据应用到务去。这里需要
的服务层包离服务层服务层，其离服务层将ETL后的用
数据推送到对应务，服务层以RESTful API方提接
服务，可支持化推荐、营推送、特征库景。
几典的应用景包：
1）短营：可以用画像的定义服务，进行重用

的广 /消消推送/短 / 件营。
2）件营：可以不同用，进行化有效的营

，同时服务上也可以已的用数据，提差化
的客服/物 / 动服务。
3）风控：可以根据用别，为风控规则擎

的入。
4）数据分：可以分不同的行为特征，提分决。
5）BI数据：可以监控核用的变化，为上层决提数据
础支持。
下面以介种常见的运营，及如将数

据与这种务。后文的7.4 讲画像化的，
本内容主要讲解后的工程化实现方，读本内容时可
7章来看。
用画像数据服务层除力省、程化
方面带来诸利，营（如同时短、件、消推
送）动时，可以设排已其营的
用，排除对用的次，同时省的营费用。
下面将介两种常见的务的方。
4.9.1　推送至营
如公司有一的营，则需要应用到服务端的数据一
入服务层对应的数据库。一来说，服务层用HBase、
Elasticsearch 进行数据存储。
一：用站内广对用进行化弹窗、广位的轮

播展示是一常见的应用景。如弹窗用推送券、
减包，广位轮播用展示近期览的相关
，如 4-36、 4-37 示，有效进用订单化。
二：机端App有消推送（push）的功，消推送是

运营用的重要方一（如 4-38）。应用的出可以
好帮助提高DAU GMV的化，如应用不当也让用对
到。此如好消推送营的略，对目用
准推送消，对提升用验尤为重要。这里，画像可实
现对不同用推送不同的消。
三：短是常见的客营一， 4-39为一典的

短营景。动日常运营，务将好的文
推送给对应，用收到短击接可到详页 App。
细化运营下可有效进订单化。
4-36　App弹窗推送内容（ “ 刻App”）
4-37　App轮播广位推送内容（ “ 宝”）
4-38　消推送（push）内容
4-39　短营用景
工程开上，可将 ETL后的用数据离同步到HBase

数据库，请接的方提服务。前文3.3.3 有详细
介。
4.9.2　接调用服务
服务层数据一接调用的方为上层应用提支持，一
是用三方平台提的服务时用。如用三方平台提的
送短、件服务时，接方调用数据。
接调用时需要定义好接的请、请参数、参数
关。
（1）接说明
本接主要用支持询用。
（2）请参数
用询的，如说入用 id 数据的时询该
用上的全，则参数为用 id 时。
请参数示
{
"data_date":"20190101",
"id":"e598027d-5412-4e7b-84a2"
}
（3）接
如接为“http://xxxx.api.com/userprofile”，上面的
请接为“http://xxxx.api.com/userprofile?
data_date=20190101&id=e598027d-5412-4e7b-84a2”。
（4）调用方
一以GET方送请。
（5）
常见的状（code）：
下面我看一接请用上的，的数据：
{"code":"200",
"data":
{
"userprofile":{
"id": "e598027d-5412-4e7b-84a2",
"tags": [
{
"tagid": "ATTRITUBE_U_06_001",
"tagweight": 6
},
{
"tagid": "ATTRITUBE_U_02_001",
"tagweight": 1
},
{
"tagid": "ACTION_U_05_003",
"tagweight": 3
},
{
"tagid": "ATTRITUBE_U_01_001"
},
{
"tagid": "ACTION_U_05_003",
"tagweight": 1
},
{
"tagid": "CONSUME_U_05_003",
"tagweight": 15
},
{
"tagid": "CONSUME_U_05_003",
"tagweight": 5
}
]
}
}
}
上面接入用 id的方请用上的，组
的应用，同样可以入需要组的及的关，
接方询同时这对应的用。
实际开需要本公司务特开环来进行。

4.10　GraphX 计用
4.10.1　计理论及应用景
Spark GraphX是分布计， Spark平台提对计
的单且富的接，以对分布理的需。
对GraphX视的有计，最终化为其关的Table视的

RDD操来完成。工程实，存需要计二度关用的景，
即用与用其共同的好友到的二度关熟，这种
对的掘计可助Spark GraphX完成。。
GraphX提顶（Vertex）、（Edge）、三元组（Triple）三

种视（ 4-40），GraphX 计也这三种视上完成。顶包
顶 id 顶属；包顶（srcid），目顶（dstid）
属（property）；三元组是对顶的展，将顶的属
存为一 RDD[EdgeTriplet[VD，ED]]，可下面SQL表：
SELECT src.id, dst.id, src.attr, e.attr, dst.attr

FROM edges AS e
LEFT JOIN vertices AS src, vertices AS dst
ON e.srcId = src.Id AND e.dstId = dst.Id
4-40　GraphX 属（ Spark GraphX官）
下面 Spark GraphX官上的来初步解的创建程。

设需要建一由不同用组成的属，顶属包用 id
用的（Property），属包顶（SrcId）、目顶
（DstId）的关（Property）（ 4-41）。
4-41　GraphX示属（ Spark GraphX官）
根据上顶的关，可创建顶对应的RDD：
val users: RDD[(VertexId, (String, String))] =

sc.parallelize(Array((3L, ("rxin", "student")), (7L, ("jgonzal", "postdoc")),
(5L, ("franklin", "prof")), (2L, ("istoica", "prof"))))
以及对应的RDD：
val relationships: RDD[Edge[String]] =

sc.parallelize(Array(Edge(3L, 7L, "collab"), Edge(5L, 3L, "advisor"),
Edge(2L, 5L, "colleague"), Edge(5L, 7L, "pi")))
顶创建：
val defaultUser = ("John Doe", "Missing")

val graph = Graph(users, relationships, defaultUser)
进一步可用graph.vertices graph.edges方对进行顶、

的计。
// 计有少用的属为postdocs
println(graph.vertices.filter { case (id, (name, pos)) => pos == "postdoc"
}.count)
// 计少条的 src > dst
println(graph.edges.filter(e => e.srcId > e.dstId).count)
行两条println命令可看到印的计为1，即对有

顶的有一用的顶属为"postdoc"，有一条
（Edge（5L，7L，"pi"））的顶目顶。
GraphX 可种方创建一。
·Graph（VertexRDD，EdgeRDD）：入顶的RDD创建
，上面介的即用这种方创建。
·Graph.fromEdges：由的RDD创建，动将有顶的属
设为默认。
·Graph.fromEdgeTuples：由元组生成，赋为1，动
创建涉及的有顶并赋默认。
·GraphLoader.edgeListFile：解（顶、目顶）
的数据到接关。下面一介的将用此种方创
建。
下面一实际景介如开 N度关用的列表。
4.10.2　数据开
实际景存用登同一机上的 App，也存同
一用机上登该App的况，这里初步认为同一机
上登的用是熟关，这种熟关需要进一步掘用
的二度熟。即用朋友的朋友也有可是该用的好友。
4-42 可初步推断：111、222、333 C 机上登，
相互熟，333 999 F 机上登，是熟，次
推。这样，我可以根据用这种相互的熟进行计的二
度关熟。
4-42　用登机关分布
计景，需要将 4-42 左用登机的这种

关象成的用关关，这种关关可视为一条，
左一列数据代表顶（srcid），一列数据代表目顶
（dstid）。
对务进行象后，需要理助计掘用二
度好友的实现方，主要包对主（可视为用）的两次
历计（ 4-43）：
· 一次历，获取本的有居，即获取1 的居
2、3、4；
· 二次历，获取有居的居，将的二度
居进行计。即获取2、3、4的居，将其给1。
4-43　计二度好友
GraphX 核操是调用API：aggregateMessages，它负责
送消，以及并收到的消。
下面 Scala 本来看计的实现，首先主函数调用

的造方，其入的数据文件“relations.txt”为 4-42
数据，后 getSecondUserIds方计用的二度关用列
表。本行如下：
import org.apache.spark.SparkConf
import org.apache.spark.SparkContext
import org.apache.spark.graphx._
object GraphxUser {
def main(args: Array[String]) {
val conf = new SparkConf()
conf.setAppName("Graphtx-Calculate-Userprofile")
conf.setMaster("local[*]")
val sc = new SparkContext(conf)
// 造
val graph=GraphLoader.edgeListFile(sc,"C:/Users/user/Desktop/relations.txt")
val graphxNeighborUser=new GraphxNeighborUser
// 二度关用列表
val neighborIds=graphxNeighborUser.getSecondUserIds(333,graph)
println("neighborIds: "+ secondIds.mkString(","))
}
}
GraphxNeighborUser对象定义 getSecondNeighborIds方用
计用的二度好友，该方嵌套调用getFristNeighborIds
方获取用的一度好友。行如下：
import scala.collection.immutable.HashSet
import scala.collection.mutable.ArrayBuffer
import org.apache.spark.graphx.{Graph, VertexRDD}
object GraphxNeighborUser {
// 获取二度好友
def getSecondUserIds(id:Long, graph:Graph[Int,Int]) = {
getSecondNeighborIds(getFristNeighborIds(id,graph), graph)
}
// 根据用 id获取其一居
def getFristNeighborIds(id:Long, graph:Graph[Int,Int])={
var fristIds=new HashSet[Long]() // 存储一居的集
//aggregateMessages 送给条的顶的消
val firstNeighbor = graph.aggregateMessages[Int](triplet=>{
if(triplet.srcId==id ){
triplet.sendToDst(1) //给目顶送记位
}
} ,(a,b)=>b ) // 顶接收到的消
firstNeighbor.collect().foreach(
a=> fristIds+=a._1
)
fristIds
}
// 根据用 id获取其二居
def getSecondNeighborIds(firstIds:HashSet[Long] , graph:Graph[Int,Int])={
val secondryIds = new ArrayBuffer[Long]() // 存储二居的集
firstIds.foreach(id=>{
val secondNeighbors=getFristNeighborIds(id,graph) // 获取一居的二居
secondNeighbors.foreach(
secondId=>secondryIds+=secondId)
})
secondryIds
}
}
行务后根据下面的可知333的一居包 111、222
999，后将这三一居进一步代获取这三居的一
居，后将二次代后的居数据给333。二次代的居包
111、222、333 一居，需要对其进行，下面是获
的二次代居：
111 -> 222,333,444,555,666,777,888

222 -> 111,333,777
999 -> 333,777,000
最终获 333的二度好友列表：
444,555,666,777,888,777,777,000
从二度好友列表可以看出：
333 444的共同熟数：1；
333 555的共同熟数：1；
333 666的共同熟数：1；
333 777的共同熟数：3；
333 888的共同熟数：1；
333 000的共同熟数：1。
照共同熟数排序后，可认为777是333的熟。
计用的好友，掘用关景有应
用，如 3.1.4 的ID-MAP章，同样可用计的方来掘
不同用设的关。
4.11　本章小
本章是全的重章，介画像相关数据的开工
应用景方面的内容，以的对象的方进行详细介
。
其 4.1 至4.4 讲的是数据开是用画像的础工

，搭建好后进行后的分面应用层
的营。4.5 介用特征库的开，相比用 “相对静
” 记用当前的状，用特征库可以对明细数据进行
计，从度分用特征。4.6 用特征库，提一种
权重计的解决方。4.7 用行为特征库度掘
的相度关。4.8 介组计的实现径，组
定的可以为务提细化运营用的。画像
除分特征，更重要的是可以将数据到服务层，
种触用。4.9 介如数据到服务层提应用
服务。4.10 Spark GraphX 计的介如用
的关掘的N度熟。
5章　开调
关 Spark开调及Hive SQL 本调的博客已有
，本章将重讲解开画像程可到的一共题，及
对应的解决方。
5.1　数据斜调
数据斜是开画像程常到的题，当务行一直卡
map 100%、reduce 99%，最后的1% 几小时行完时，这时
一是到数据斜。
题出现的原是当进行分布计时，由需要计

的数据，导致其的reduce阶务行完成时，该的
务还有行完成，造成其待该行完成的况。比
如两表 join的时分key对应10条数据，是别几 key
对应 100万条数据，对应10条数据的task 行完成，对应
100万数据的key则要行几小时。
5-1 示的是一典的子。
5-1　数据斜景
bb这 key 3 上有11条数据，aa cc 3 上分别有2
条 1条数据，这数据被取到一 task上理。理bb这
task的运行时可是理aa cc的task的运行时数，整运行
速度由最的task决定。
下面介两种解决数据斜题的方。
方一：掉斜数据
当少 key重次数特别，如这种key不是务需要的key，可

以直接掉。这里有一日表ods.page_event_log，需要
订单表dw.order_info_fact join关。行Hive的程现
务卡 map 100%、reduce 99%，最后的1%一直运行不完。虑应该是
join的程出现数据斜，下面进行排。
对 ods.page_event_log表看出现次数最的key：
select cookieid,
count(*) as num
from ods.page_event_log
where data_date = "20190101"
group by cookieid
distribute by cookieid
sort by num desc limit 10
将key 出现次数从到少排序（如 5-2 示）。

5-2　日表key 出现次数排序
同样，对订单表dw.order_info_fact 看出现次数最的key：
select cookieid,
count(*) as num
group by cookieid
distribute by cookieid
sort by num desc limit 10
将key 出现次数从到少排序（如 5-3 示）。

5-3　订单表key 出现次数排序
从上面的子可以看出，日表订单表 cookieid进行

join，当cookieid为0的时，join操将生142286×142286条数
据，数如此庞的无理来。同样当cookieid为NULL
空时也出现这种况，且cookieid为这3 时并有实际
的务义。此对两表关时，排除掉这3 以后，就可以
计出。
方二：入随机数
数据照 group by时，将相同的key 需的数据取到一

进行，当组数据时，出现其组已计完成
当前务未完成的况。可以虑加入随机数，将原来的一组key强
制分为组进行。下面一进行介。
现需要计用的订单，行如下代码：
select t1.user_id,
t2.order_num
from (select user_id
from dim.user_info_fact # 用度表
and user_status_id=1
) t1
join ( select user_id,
count(*) as order_num
from dw.dw_order_fact # 订单表
where site_id in (600, 900)
and order_status_id in(1,2,3)
group by user_id
) t2
on t1.user_id = t2.user_id
用度表有2000万条数据，订单表有10 条数据，务未
化前行 1 小时也有出，判断可是出现数据斜。
订单表 key 数， group by的程取到一

task上行时，出现其 task 行完毕，待该task 行的况。
这里可以将原本相同的key 加随机前的方变成
key，这样将原本被一 task 理的key分散到 task上先一次
，后去掉前再进行一次到最终。程如 5-4 示。
5-4　两阶
改后代码行如下：
select t1.user_id,
t2.order_num
from (select user_id
from dim_user_info_fact
) t1
join ( select t.user_id,
sum(t.order_num) as order_num
from (select user_id,
round(rand()*1000) as rnd,
count(1) as order_num
where pay_status in (1,3)
group by user_id,round(rand()*1000)
) t
group by t.user_id
) t2
on t1.user_id = t2.user_id
5.2　并小文件
Spark 行“insert overwrite table表名”的语句时，由
程并行 HDFS写入且RDD默认分区为200 ，此默认况下生
200 小文件。
Spark 可以用reparation coalesce对RDD的分区重新进行划

分，reparation是coalesce接 shuffle为true的实现。
Spark内对一分区分一 task 行，如 task ，

么 task 理的数据小，这就造成程频 task 切
换，导致集工效率低下。为解决这题，常用RDD重分区函数
来减少分区数，将小分区并为分区，从提高集工效率。
// 并插入用宽表数据的分区
val executesqls = spark.sql(
"""
| select user_id,
| org_id,
| org_name,
| sum(act_weight) as act_weight,
| sum(cnt) as cnt
| from dw.peasona_user_tag_relation
| where user_id is not null
| and user_id <> 'null'
| group by user_id,org_id,org_name
""".stripMargin).rdd.coalesce(1)
val datardd = executesqls.map(row => {

val user_id = row.getAs[String]("user_id")
val org_id = row.getAs[String]("org_id")
val org_name = row.getAs[String]("org_name")
val act_weight = row.getAs[String]("act_weight")
val cnt = row.getAs[String]("cnt")
Row(user_id,org_id,org_name,act_weight,cnt)
})
spark.createDataFrame(datardd, StructType(Seq(
StructField("user_id", StringType),
StructField("org_id", StringType),
StructField("org_name", StringType),
StructField("act_weight", StringType),
StructField("cnt", StringType)
))).createOrReplaceTempView("user_act_info")
spark.sql(
s"""
| INSERT OVERWRITE TABLE dw.peasona_user_tag_relation
partition(data_date="$data_date")
| SELECT user_id,org_id,org_name,act_weight,cnt
| FROM user_act_info
""".stripMargin)
5.3　存数据
Spark的一重要的力就是将数据持化存，这样操
期可以访这持化的数据。当持化一 RDD时，的
其分区可以用RDD 内存进行计，该数据上的其 action
操将直接用内存的数据，这样其操计速度加。对RDD
的杂操如有持化，么一切的操从开始，一步
步往后计，不用原始数据。
画像 ETL的时，对一计可以不落磁
盘，需数据存内存。用Hive进行ETL时需要将一
计落时表，用完时表后再将其删除。
RDD可以用persist cache方进行持化，用StorageLevel

对象给persist方设存储别时，常用的存储别如下示。
·MEMORY_ONLY：存储内存；
·MEMORY_ONLY_2：存储内存，分区集两
上建立副本；
·DISK_ONLY：存储磁盘；
·MEMORY_AND_DISK：先存储内存，内存不的话存储磁盘

。
其 cache方同调用persist（）的MEMORY_ONLY方。
画像开，一从Hive 读取数据，后将需要

理的DataFrame 册成存表。
这里介一开画像时存数据的。
行如下代码：
// 读取原数据下单用
val peopleRDD =
spark.sparkContext.textFile("C:\\Users\\king\\Desktop\\practice\\cookiesession")
.map(_.split(",")) // RDD[Array[String]]
.map( row => Row(row(0),row(1),row(2),row(3),row(4))) // RDD[Row]
peopleRDD.persist(StorageLevel.MEMORY_ONLY)
peopleRDD.createOrReplaceTempView(“user_base_info”)
这里将读取的用数据存内存并册为一视。后直
接从视读取对应用数据。该Spark 务行完成后，放内
存，不需要除该存数据。
5.4　开表
用画像代开的程，初期开完后，对
加工的血整理，可以到用相同数据的，对这分
，可以加工表减日画像调度时。
层设计前需要明确几重要的：
1）这层对应的务景、务目是么？
2）务方有这层数据以后可以进行度的分，

ETL时有这层数据可以减少对数据的重开计？
3）这务景分包分度？
4）同时面务景的层不一定是好的层。
开表前，首先需要理目前用计时赖的上

数据库的表（如 5-5 示）的血赖（如 5-6 示）。
5-5　用赖上数据库的表（示表名）

5-6　用血理（示表名）
如开程，可以 dwd层的日分区存放当日期对应的订

单， dws层为服务层，其日分区用存放当日期对应的全数
据。这样，日常调度计的程，可免 dwd层重计历数
据，需计当的新数据，既省 ETL时，也不服务层
的数据。
对用的血进行理，到共同赖的上数据。

5.5　本章小
前的项目开程，ETL调度时是一难解决
的“瓶颈”，的调度完计、验预警、计
、验预警、同步到服务层环后往往需要几小时，最后
提到服务层数据时也比晚。这程为减少调度时，
我也尝试，包对一 Hive表设计分区，并行务
插入数据；对一行时的本进行调；理数据血开
层表，对一常见的公共数据直接从层表获取数据，减少数
据的重开计。次代后也取不的效，将整
调度时压 1/3，可以及时将画像数据出到服务层的
需要。
本章介画像数据开可到的需要调的景。

对数据斜、并小文件、存数据、开表几常见
题的理，可以化ETL 程，减少调度的整时。
6章　程调度
开完一画像对应的本后，需要将该本提上调度
，定时刷昨生的新。
开代的程，开初期用crontab命令调度开务
定时行，随着调度务规的加，用Kettle、Airflow这样的
工具替代crontab 定时调度提高集工效率。一方面可以帮助厘
务的赖关，另一方面当调度出现常时可速定位出现
题的位。
6.1　crontab命令调度
画像开的初期阶，为数据尽上代，对调度
规范化的要许放次要位。这一阶， Shell
本、Python 本 crontab调度命令即可完成单的ETL 务。
下面一来看这种ETL的实现方，如 6-1 示。
6-1　crontab调度程
crontab命令 7 定时调 workflow_work.sh 本。
00 07 * * * /usr/bin/sh /home/userprofile/userprofile_workflow.sh >>

/home/userprofile/ crontablog/log_`date +\%Y\%m\%d`.log 2>&1 &
workflow_work.sh 本好环变后，调 Python 本

main_workflow 行。代码示如下：
#!/bin/sh
export SPARK_HOME=/usr/local/spark-2.1.1-bin-hadoop2.6
export JAVA_HOME=/usr/local/jdk1.8.0_162/
export PATH=$JAVA_HOME/bin:$PATH
/usr/bin/python /home/userprofile/work/main_workflow.py
main_workflow 本，分别提 Spark 务去行画像的

计本。代码示如下：
# -*- coding: utf-8 -*-
import sys
import datetime
import os
if len(sys.argv) < 2:
today = datetime.datetime.today()
oneday = datetime.timedelta(days=1)
yesterday = today - oneday
datestr = yesterday.strftime("%Y%m%d")
else:
datestr= sys.argv[1]
os.system("export PYTHONIOENCODING=utf8")
os.system("export SPARK_HOME=/usr/local/spark-2.1.1-bin-hadoop2.6")
os.system("export JAVA_HOME=/usr/local/jdk1.8.0_162/")
os.system("export PATH=$JAVA_HOME/bin:$PATH")
# 分别提 Spark 务，行画像计本

os.system("spark-submit --master yarn --deploy-mode client --driver-memory 1g
--executor-memory 8g --executor-cores 2 --num-executors 50
userprofile_cookieid_gender.py " + datestr)
os.system("spark-submit --master yarn --deploy-mode client --driver-memory 1g
--executor-memory 4g --executor-cores 2 --num-executors 50
userprofile_cookieid_country.py " + datestr)
......
6.2　Airflow工平台
Airflow是Airbnb内的一工理平台，如 6-2
示。用Python 写实现的务理、调度、监控工平台。
Airflow的调度赖 crontab命令，与crontab相比，Airflow可以方
看务的行状况（行是成功、行时、行赖
），可务历行况，务行败时可以收到件
知、看误日。对理调度务有的帮助。
6-2　Airflow官首页（ Airflow官）
crontab命令理调度的方来看存以下几方面的端：
1）务调度行的况下，难以厘务的赖关；
2）不看当前行到一务；
3）不看调度下务行的止消时，这对
化task 是非常重要的；
4）不记历调度务的行况，这对化排
误是非常重要的；
5）行务败时不看行日，不方定位报的务

接收误警件。
Airflow的官方文是
http：//airflow.apache.org/index.html，用Airflow 理调度
务的读可研读官文章，入解Airflow。
下面介工程开如去应用Airflow。

6.2.1　础
介 Airflow这调度工具前先介几相关的础。
·DAG（Directed Acyclic Graph，有无环）：用描数据

的计程。
·Operators：描 DAG 一具的task要行的务，如

BashOperator为行一条bash命令，EmailOperator用送件，
HTTPOperator用送HTTP请，PythonOperator用调用的
Python函数。
·Task：是Operator的一实，也就是DAG 的一。
·Task Instance：记 task的一次运行。Task Instance有己

的状，包 “running”“success”“failed”“skipped”“up
for retry” 。
·Triggher Rules： task的触条件。
6-3 ，一可视为一 task， task用行一条

务，比如行表的ETL加工。这 task调度务行顺序的先
后接来成一有无环。
6-3　调度DAG task 的赖示（ Airflow官）
6.2.2　Airflow服务成
一正常运行的Airflow 一由以下几服务成。
1.WebServer
Airflow提一可视化的Web界面，动WebServer后，可以

Web界面上看定义好的DAG并监控及改变其运行状况。也可以 Web界
面对一变进行。
2.Worker（Celery ）
一，我用Celery Worker来行具。Worker可以

台机上，并可以分别设接收的列。当接收的列有
务时，Worker就接收这务并开始行。Airflow 动
Worker的机上同时一 Server Logs服务，这样就可
以 Web界面上方看分布不同机上的日。
3.Scheduler
整 Airflow的调度由Scheduler负责，隔一时
Scheduler就有定义完成的DAG 定义其的，如有
运行条件的，Scheduler就相应的务以 Worker
接收。
4.Flower（Celery ）
Flower提一可视化界面用监控有Celery Worker的运行

状况。
6.2.3　Airflow安装
Airflow的安装单，如 6-4 示，命令下入“pip
install airflow”即可完成Airflow的下安装。
6-4　Airflow安装
安装完成后，入airflow webserver命令动Airflow的Web端服

务。
6.2.4　主要功
Airflow的理界面，可以解其主要覆盖的功。下面
介 Airflow主要覆盖的功，这 Airflow官上有详细
介：http://airflow.incubator.apache.org。
1.DAG 务列表
首页的DAG 可以看当前DAG的务列表，包当前有

DAG调度务、务运行成功、务运行败、务正
运行。如 6-5 示，从可看到当前有3 DAG调度务，务
有（Owner）为airflow， Task by State 可看当前务的调
度状。
6-5　DAG 务列表（ Airflow官）
2.DAG调度状
Tree View （如 6-6 示）可以看当前DAG task 务

的调度状，是行成功、正行、行败还是待行，
速定位到行败的务，重新调行。
6-6　DAG调度状（ Airflow官）
3.DAG有无环
Graph View （如 6-7 示）可以看到当前DAG task

务的赖关，以及务的行状。
6-7　DAG调度有无环（ Airflow官）
4.甘特
Gantt （如 6-8 示）可以看DAG调度的甘特，

甘特可以看 task调度务的止时、持时。方
到调度时的task 务，以后进行化。
6-8　DAG调度甘特（ Airflow官）
5.DAG 行本
Code（如 6-9 示）可以看当前DAG 务的行

本，包务的始调度时、调度败后重试机制、 task 务
的赖关。当 task 行出现题时可看该调度本
定位原。
6-9　DAG调度行本（ Airflow官）
6. 行日
当 task 行败时，击该task 务，弹出的

“View Log”可看该务的行日，如 6-10 示。
6-10　看task 行日
6.2.5　工调度
Airflow的工设计是有无环（DAG），如 6-11 示，
写工时，需要虑如将务划分为可独立行的务，
后将这务并为一整，从实现务调度的。
6-11　DAG有无环示（ Airflow官）
Airflow DAG文件的功定时务开的Shell 本，负责

理定时务一子务（task）的调度赖。
画像的调度是先行计务，完后验数
据，如数据验无误则送件，后行计务，
则送败件，务暂。计完成并验后将数据同
步到务。程一环有监控验暂务，
待开理并证数据验后开后面的调度环。程
详细的调度环见6.2.8 内容。
6.2.6　本实
Airflow ，单说，task 本是需要被一调行的
本，DAG 本是理task 本行顺序、行触条件的。 Airflow
调度开主要需要护的是DAG 本。下面一具的子来
解。
from airflow.operators.bash_operator import BashOperator

import airflow
from airflow.models import DAG
from airflow import operators
from airflow.contrib.hooks import SSHHook
from airflow.models import BaseOperator
from airflow.contrib.operators import SSHExecuteOperator
from airflow.operators.latest_only_operator import LatestOnlyOperator
import os
import sys
from datetime import timedelta,date,datetime
import pendulum
from airflow.utils.trigger_rule import TriggerRule
default_args = {
'owner': 'userprofile',
'depends_on_past': False,
'start_date': datetime(2018, 12, 01),
'email': ['administer@testemail.com'],
'email_on_failure': True ,
'email_on_retry': True,
'retries': 1,
'retry_delay': timedelta(minutes=1),
}
os.environ['SPARK_HOME'] = '/usr/local/spark-2.1.1-bin-hadoop2.6'
sys.path.Append(os.path.join(os.environ['SPARK_HOME'], 'bin'))
dag = DAG(
'userprofile_dag',
default_args=default_args,
description='A userprofile test',
schedule_interval='00 07 * * *')
该本，首先定义需要入的赖包，定义默认的参数

及DAG参数调度时。其 default_args的默认主要定义
如下参数。
·depends_on_past：是赖上务，即上一调度务行
败时，是行该务。可项包 True False，False表示当前
行本不赖上行务是成功；
·start_date：表示首次务的行日期；
·email：设定当务行败时，用接收败报警件的

；
·email_on_failure：当务行败时，是送件。可

项包 True False，True表示败时将送件；
·retries：表示行败时是重新调务行，1表示重

新调；
·retry_delay：表示重新调行务的时隔。
DAG的定义，除入上的默认
（default_args=default_args），还定义该DAG 本的dag_id为
userprofile_dag，定时调度时为早上7 。
两行参数为本运行的环变。
userlabel_task1= BashOperator(
task_id='userlabel_task1',
bash_command='spark-submit --master yarn --deploy-mode client --driver-memory
4g --executor-memory 8g --executor-cores 2 --num-executors 100
userlabel_execute1.py {{ ds_nodash }} ',
dag=dag,
trigger_rule=TriggerRule.ALL_DONE)
userlabel_task2 = BashOperator(
bash_command='spark-submit --master yarn --deploy-mode client --driver-
memory 4g --executor-memory 8g --executor-cores 2 --num-executors 100
userlabel_execute2.py {{ ds_nodash }} ',
dag=dag,
trigger_rule=TriggerRule.ALL_DONE)
… # 相应用画像本的task，这里省略
airflow_run >> userlabel_task1 >> userlabel_task2 >> userlabel_task3

airflow_run >> userlabel_task4 >> userlabel_task5 >> userlabel_task6
上面这本入需要行的task_id，并对DAG进行实
化。其对userlabel_task1这 task_id来说，里面的bash_command
参数对应具行这 task 务的本，可理解为Linux下提的
shell命令。userlabel_execute1.py文件为行加工用订单对应
的本。Trigger_rule参数为该task 务行的触条件，官方文
里面该触条件有5种状，一常用的
为“ALL_DONE” “ALL_SUCCESS”两种。其 ALL_DONE为当上一
task 行完成时，该task即可行， ALL_SUCCESS为有当上一
task 行成功时，该task 调行，行败时，本task不行
务。
“airflow_run>>userlabel_task1”命令为task 本的调度顺
序，该命令先行“airflow_run” 务后
行“userlabel_task1” 务。
完成后，可以 Airflow的Web端理界面的“Graph

View” 项下看到上文的调度赖程，如 6-12 示。
6-12　Airflow下用画像调度
6.2.7　常用命令行
Airflow 可视化界面的方实现调度理的界面操，
试本界面操败的时，可命令行的方调务。下
面介几常用的命令。
·airflow list_tasks userprofile：该命令用看当前DAG

务下的有task列表，其 userprofile是DAG名称。
·airflow test userprofile age_task 20180701：该命令用

试DAG下面 task是正常行，其 userprofile是DAG名称，
age_task是其一 task的名称。
·airflow backfill-s 2018-07-01-e 2018-07-02

userprofile：该命令用调整 DAG 本行务，其
userprofile是DAG名称，2018-07-01是本行的开始日期。
6.2.8　工程化调度方
工程实，对用画像的ETL调度工，除的调
度，还包同步数据到服务层、数据的监控预警（预警、同步到
服务层的预警）。下面详细介工程化调度覆盖的，该
调度方可以前面介的开、同步数据到服务层、服务层调
用数据开内容的知识全来，读对用画像整方
有一宏观上的认知。
从 6-13可以看出，用画像工程的调度主要可划分为2 ，
包数据库进行的计，以及数据写入服务层，下面详细进
行介。
6-13　主要调度
1. 计
计主要用 ETL将用上，包计

、规则、机学习。对应的ETL 本行程
如败，Airflow支持败后重试。
本示如下：
# 上务的task
airflow_start_run = BashOperator(
task_id='airflow_start_run',
retry_delay=timedelta(minutes=5),
retries=10*12,
bash_command='python /airflow/myscripts/userprofile/airflow_start_run.py',
dag=dag)
# 计的task
userlabel_task1 = BashOperator(
bash_command=' spark-submit --master yarn --deploy-mode client --driver-memory
1g --executor-memory 2g --executor-cores 2 --num-executors 20 userlabel_task1.py
{{ ds_nodash }} ',
dag=dag,
trigger_rule=TriggerRule. ALL_SUCCESS)
从上面的本可以看到上务的task 败后隔5分

重试一次（retry_delay），最重试10×12次（retries）。下面
计的task 行触条件（trigger_rule）是上务行成功
（ALL_SUCCESS），以上务行败重试时，计的务
不调行。bash_command是提行务的命令，该命令提
行对应的务本。
计完成后，验当的出是正常，当验后
进行出到服务层的务，则务败重试务挂。
2.数据写入服务层
ETL 务行到服务层时，将对应的数据写入服务层对应的

数据库。如对接本公司的营平台，则将数据写入到HBase、
Elasticsearch 数据库，对接三方营平台，接的方将
数据出到三方营平台去。
3.服务层调用
服务层接方调用务需的用数据。下面两
应用景。
景一：对存储 HBase 的用数据 Elasticsearch 创

建二的方，支持到组对应的用，进对其进行
特定的营动。
景二：入用 id来询该用上带有的，进

对其进行化的营、服务行为。
6.3　数据监控预警
相比Hive，由 MySQL 关数据库对小的数据读写速度
，以开时虑将数据的监控相关表护 MySQL 。
数据监控预警整来看盖下面几主要。
监控预警：用监控当日的ETL是生题，当数

据出正常范时，出报警件。
服务层数据监控预警：数据从数据库出提到服务层时，该
程是正常进行，一对比数据库（Hive）务的
数务（如MySQL、Hbase、csv文件）对应的务的
数进行监控。
下面详细介这两监控预警的表设计应用景。
6.3.1　监控预警
监控预警主要用证日用加工的正常进行，当
的数覆盖用况出现动时触件报警，开收到
报警件后定位题的原并进行理。
报警件的本描这监控表当日数据，当当日的
出与历相比出现程度动时，可触警提示。如男
历出覆盖用数是100万，今出覆盖的用是120
万，可视为出现动。
可设计如下监控表，监控的出况。
CREATE TABLE ùserlabel_monitordata` (

ìd` int(11) NOT NULL AUTO_INCREMENT,
`labelid` varchar(45) NOT NULL,
`data_date` date NOT NULL,
`label_num` int(11) NOT NULL,
`label_wave` float DEFAULT NULL
PRIMARY KEY (ìd`)
) ENGINE=InnoDB
该监控表主要记以下字：
·labelid： id。
·data_date：数据日期。
·lable_num：该覆盖的用。
·label_wave：该今日出与历相比的动况。
6-14是监控表示数据。

6-14　监控表示数据
6.3.2　服务层预警
该监控主要用证服务层数据的稳定准确，数据从数
据库服务层时需要对其进行监控，则应用到务
用的知验。如：当推送到服务层的数据存题时，App
推送给用的弹窗送给用的短件受到。以
将数据推送到服务层前需要对其监控，当现题时，暂推送到服
务层，排题后再重新推送。
设计服务层预警时，可开一监控表存储当日同步到服

务层的数据（service_count）与存储 Hive 的数据
（Hive_count），报警件的本描这务监控表当日数
据，当数据存的动时，表明数据的同步可出现题，此
时触件警。
如广务的景，该 RESTful API方读取
HBase 存储的数据，此监控预警验时，需要比对数据同步前
Hive 该数据及数据同步后HBase 存储的数据。首先需要
询Hive HBase 对应的数据，示代码如下（Python代码）：
# 询 Hive 数据
r = os.popen("hive --hiveconf mapreduce.map.memory.mb=8192 --hiveconf
mapreduce.reduce.memory.mb=16384 -S -e\"select count(1) from
dw.userprofile_userlabel_map_all where data_date='"+datestr+"'\"")
Hive_count = r.read()
r.close()
print "Hive_result: " + str(Hive_count)
# HBase 询导入HBase 数据
r = os.popen("source /etc/profile; HBase
org.apache.hadoop.HBase.mapreduce.RowCounter 'userprofile_"+datestr+"' 2>&1 |grep
ROWS")
HBase_count = r.read().strip()[5:]
r.close()
print "HBase result: " + str(HBase_count)
将上询到的数写入“service_monitor”这服务层的

监控表，示本如下：
# 接 DB,将询插入表
db = MySQLdb.connect(host="xx.xx.xx.xx",port=3306,user="username",
passwd="password", db="xxx", charset="utf8")
cursor.execute("INSERT INTO service_monitor(date_date, service_type, Hive_count,
HBase_count) VALUES('"+datestr_+"', 'advertisement',
"+str(Hive_count)+","+str(HBase_count)+")")
db.commit()
6-15是务监控表示数据。
6-15　务监控表示数据
数据插入完成后这服务层监控表的Hive数据同步
后服务层的数据来判断同步数据是正常，是需要送警
件。
6.4　ETL 常排
画像 ETL调度的程，难免到调度败的况。
败时，短时（小时别）来看对服务、BI 视分来
说暂服务的还不，是对上实时推荐的务来说就
带来用验差、推荐准确不关到营收的重。
此调度败时，速定位败的原关。
关调度败的原，下来，照排误方的先来
说，主要包以下几方面。
1.资内存不导致败
这是最常见的败原。当集资竞严重时，画像的ETL

调度有可受到，关该种原的排，需看调度败
务对应的行日文件即可。日文件搜 “error”关词可
速定位到报原的位。
常内存不的败，日报
出“java.lang.OutOfMemoryError” 误。
2.上数据ETL延导致加工败
出现该误的原可数据监控预警件现。数据

监控预警报出当日的数据下降幅度理范。对
数据下降常的，看该加工本赖的上表包
，进一步看上表的ETL完成时是本ETL时前。
如：计用历购额的，是从上的订单表

加工来的。平时上订单表的ETL完成时早上8：00，计
用历购额的的ETL时 8：30，日订单表
8：30还未完成ETL ，照设定此时该已开始 ETL 务，
加工当败。
如定位是为上数据ETL延的败，需要判断画

像的调度时是上数据当日ETL完成时后进行。如，
对判断上订单表dw.order_fact数据的当日ETL完成时，可
命令“hadoop fs-ls
hdfs://data/user/hive/warehouse/dw/order_fact/data=20180701”
看，其 “hdfs://data/user/hive/warehouse/dw/order_fact”是
订单表对应的HDFS文件位，可 HiveQL语句：“show create
table dw.order_fact” 看。
3.上数据ETL 常败导致加工败
这种败原比 2条败原更难现。当上数据已加工完

毕，写表落后，即 HDFS上上文件的写入时也不现
题。此时可对比该上表近期日的数据来现是存
题。
如：对日期分区的订单表dw.order_fact，可命

令“select data_date，count（*）from dw.order_fact where
data_date>=’20180701’and data_date<=’20180707’group by
data_date”来看近几日的是存的动。当现昨日数
据下降时，即有可是上数据加工常导致的
题。
4. 本导致数据加工败
这种况也是可误的原一。上前期ETL 正

常，随着时的推移，积攒的题最终爆出来。这里一开
程到的题来进行详解。
我知一用（userid）可设上登，同一设
（cookieid）上可登用，即userid cookieid为对
关。次开需要从cookieid关到userid，获取userid的状
时，略这两度的对关，未加条件限制。初
始化数据时，本行后出“看 ”的数据。 ETL
调度两后，这种直接对关的误，数据，
造成行败。
此，排题时同样要开的是存 BUG。
5. 上务变动导致原有加工效
这种题虽不常见，生时也数据的动。
如：正则表解页接来获取用访页面对应的

，这种景，当上务变动时导致原有的接改
变，正则表是定的，从导致不解变动后的接。
对这种况应尽免，需要运营方上新的接前知
开。
6.5　本章小
如说数据开日常工么最重要，一定就是护调度
的稳定。数据稳定有障，提到服务层的数据的质
有障。本章介如用开 ETL工具Airflow进行画像相关务
的调度工及出现题时的排方，数据预警机制障的
数据出、提的服务的可靠。
7章　用画像化
开画像后的数据，如是“ ”数据库，并不
挥更的务价。有将画像数据化后更务方
用。本章，Web端展示的数据读取 MySQL这的关数据
库，MySQL 存储的数据 Hive加工后， Sqoop同步的集。
本章主要介用画像化后主要可盖到的功，以

及这功的应用景。
7.1　即时询
即时询功主要面数据分师。将用画像相关的表、
用特征库相关的表开放出来数据分师询。
顾下3.1 的Hive存储的相关表，包 userid cookieid两

度。
·dw.userprofile_attritube_all：存储用属度的
。
·dw.userprofile_action_all：存储用行为属度的。
·dw.userprofile_consume_all：存储用消费度的
。
·dw.userprofile_riskmanage_all：存储风控度的。
·dw.userprofile_social_all：存储社度的。
·dw.userprofile_cookielabel_map_all：对 cookieid 上
的后出。
·dw.userprofile_usergroup_labels_all：用分组表。
询应用到务下面，对应 id里面的用数据，营效
试有广应用。如务对定的进行短营，数
据分师分营效时，可以询这表该 id下面的用
id数据，进一步分这用后的订单方面的表现。
·dw.cookie_feature_event_append：用特征库表，存储用
一一次行为带来的数据，可用掘用行为特征及
好。
数据分师日常分与用相关度的数据时，可询相应表

的数据，这里两来介。
对存储cookieid 度数据的表
dw.userprofile_cookielabel_all，如提取带有男
（id=ATTRITUBE_C_01_001）的用以后应用，可用如下
询语句：
select cookieid
from dw.userprofile_attribube_all
where data_date = ‘20190101’
and labelid = ‘ATTRITUBE_C_01_001’ # 分区的主题是别
limit 10
该询，限制询的日期分区为当前日期前一，询
id为男用。
询如下：
对存储userid 度的的表
dw.userprofile_userlabel_map_all，如已知一用的id，可
询出该用上带有的全。
select userid,userlabels
from dw.userprofile_userlabel_map_all
where data_date = ‘20181201’
and userid in (‘44463729’,’4069220’,’20101029’,’54597979’,’19816511’)
询如下：
关用特征库相关数据的询应用方 4.5 有详细介
。面数据分师询时，需要开放出表及详细字说明即
可。
7.2　视与询
视与询功主要是面务用，如 7-1
示。
7-1　平台视
视，层化展示目前已上用的全用
。用可以层化击，看的详细介
。
7-1 ，当击“用属 ”这一目时，可进入到“

别”“购物别”“用价 ” 二目，击“
别”二目，可看到展开的“男 ”“女 ”三，进一步
击三 “男 ” 是“女 ”，可以看该的详细介，如
7-2 示。
7-2　元数据视
该详页，可以看属这一目下面
的覆盖用况。
对的覆盖用进行监控，可以为预警用。

如：的覆盖用与前一相比出现比的
动，需要排该当日ETL 是出现常是务上的操
导致的动。
询，如 7-3 示，入用对应的userid
cookieid，可以看该用的属、行为、风控属
度的，方位解一用的特征。关如存储这种数据
， 3.1.3 有介，即将用对应的成map字
，如{‘key1’：‘value1’，‘key2’：‘value2’}，进行
存储。
7-3　用询
7.3　元数据理
理功主要是面数据开。数据开开
完后，需要将入元数据进行理，如 7-4 示。
的理也即对元数据理，将 Web端表单

写的数据存储到MySQL 关数据库。用该击“
加 ” 对已加的进行操，可设该的元数
据相关（如 7-5 示）。
可该页面相关的元数据，包 id、名称、开

、、描、数据，方务应用时理解
该的务义以及其负责。对应的元数据护关
数据库，需要创建一关字，如 7-6 示。 Navicat
化操界面可看入的元数据，如 7-7 示。
7-4　理– 加
7-5　理– 元数据
7-6　元数据字
7-7　 Navicat 看入的元数据
7.4　用分功
用分功主要是面务用。理、运营、客服
务应用时，可不看一对应的
况，更可需要组来其务上对的定
义。如：组 “近30日购次数” 3次 “高 ”“女 ”用
这3 定义目，看该覆盖的用，以及该分
的度特征。下面介上的实现方。
“用分 ” 下，击“新建 ” 前已
加的分组（见 7-8），进入详页可定义盖的（如
7-9 示）。
7-8　用定义分
7-9　用定义分
定义用分时，对有计，可以定义
该的取范，如 7-9 “近30日购次数” ，务可
该的数。对分，如 7-9 的“ 度” ，
务该即可出包该的用。“ 名
称” “ 描 ”表单用务描该务上的定义，
方后看、应用该。下面详细介一下“ 减 ”功的
应用。
Web 端，务方组来视分、定
，并推送到的务； ETL 务时，即 7-9 “数据计
层 ”，首先需要从MySQL 关数据库读取务方定的
规则，即的权重，后将规则组成SQL语句，
Spark 务将对应的计出来，写入Hive ；服务层应用时，即
7-9 “ 出到服务端”，根据不同的务，分别行对应的数
据同步本，将上程计出来存储到Hive 的数据同步
到对应的务。
数据计层面，实现用功的详细开程可见4.8 。

7.5　分功
分功主要是面务、数据分师、理
用。
分
提根据现有用定用的功，同时务方
可以从度（如、别、年龄、消费平）进一步分该
用的特征，从为细化运营提支持。上一小讲的用
功相，分功首先也需要组定用，不
同视分功支持从度去分定用的
特征，用分功重的是将出来的用推送到务
，提服务支持。
下面介分功。首先用分功一样，

需要组出目用（如 7-10 示）。
7-10　创建需要分的
创建好目用后， “对比度” 菜单需要分
该用的度（如 7-11 示），如这里的是下单次数
度。“对比度”列表的可也是用属、用行为
目已建的。
7-11　对目需要分的度
好视分的度，下面就可以看到刚出来的用
度下单次数上的表现（如 7-12 示）。
7-12　从度分目特征
除视分单度上的特征，视分功
还可以支持同时分不同度上的表现。务根据
不同务规则同时创建两，后对比度，可以从
度上对比分这两的特征（如 7-13 示）。
7-13　对比分两特征
7.6　本章小
本章介用画像化主要盖的功以及这的
应用景。用画像化是数据应用到务服务的一重要出
，务熟知务，对数据不解。这种可视化的方
，方务分用特征，将分后的用推送到对应
务触用，更方、捷将数据赋到务景去。本
章对功的详细剖，为数据、运营、客服
务提一种规划应用服务的解决方。
8章　用画像应用
用画像化后就成为务分用、触用的有效工
具，本章从营分、准营、化推荐方面介用画像的
应用景。
8.1　营分
画像可帮助务从方面进行营分。
8.1.1　分
助用画像，可以对的进行分，比如说可以速定
位到爆，进一步分购爆的用度上的特
征。
如 8-1 示，运营可以直观看出男装三的

况，如本牛裤季新最高。当，运营进一步
分购这两种三的用其度上的特征（如年龄、
、）以准营时，可以用视分功（详见7.5 ）
来分该用度上的特征。
8-1　男装三日（示数据）
8.1.2　用分
助画像可以解平台用的别、年龄、度特
征的用分布特征，如 8-2、 8-3、 8-4 示。
8-2　平台用别分布
8-3　平台用年龄分布
8-4　平台用分布
8.1.3　分
根据黑客理论（AARRR），如 8-5 示，将的营收
径分为 — 册—留存—下单— 播，其主要是运
营负责；用运营贯穿接下来的程；内容运营主要负责生
质的内容来提高用的黏，从提高留存；主运营主要负责主营
务的径，化化，提高化率。
8-5　AARRR 及运营重
下面对AARRR 的定义及运营方进行详细讲解：
1）：这是来的动，有有的用进入平
台，对这用进行化。我知，互新客的获客成
本是比高的，如不的质，有可既
有获取到质好的用。对这一，用触的本分就是对
用来进行分，即本要介的内容。不靠的
况下，、放对我的App、Web 更适。
2）册：后，如用是进来就，这
对并有么用。有高质的内容、适的功
用的需，用有进一步解的望，有化的下
一步操 —— 册。此将用入平台还是远远不的，
需要进一步关用是进一步册化，从册程上看是存
需要化的细。
3）留存：前面我提，新用的获客成本是比高的，此不
可一去获取新的，同时也需要用，让进来的
用对成赖，用需，让用持不断来
用我的。此提升留存一方面需要用需，另一方面需
要化用验。化程可用分、细化运营、将
准内容推送给有特定需的用来提高用对的度。
数据可以用行为来分行为可以用持访
、如这行为生。并用生命期的研究，对默用
进行识别，让运营运营对这用进行；对用
进行记，让运营推送、放方进行用。
4）营收：用是收入的前提。有完全用的需，用
认同的价，用费化。要让持稳定
运营下去，就需要一列运营让新用持费
化，让用持费。用运营的础是对用解、
熟，数据的是帮助运营解用的有属，让用不断营
收进行化。
5）播：有用对高度认可及对功高度赖，
将分推荐给其。分推荐的程，
的来，成的环，最终不断的将用往营收用
进行化，到价的目的。
对目用的来的分尤为重要。
画像应用，可以分目的来，放的
略更有对。如，务用画像组定对女
装兴的，度进行视，分该用主要来
，后有对该放该女装的广。
8-6 示为目用的占比示。

8-6　目用占比
一，画像端可以搭建BI报表的方进一步细化分

的度表现。整来用平台上的访、册、
订单、GMV、留存率以及放费用度数据，评不同的
质好，以务对的放略有的放矢。
下面以表8-1 示的分度为进行分。
1）用用衡获取用的力用平，一

来说几主要的即为该带来用，其为该
带来的用相对小，尾分布，日报数据监控方面需要重
关前几主要的。该主要关 UV、日 UV、日用
册、日册。其日的计径用评价该的整
平，一计该的近30日。
2）对用质的评价一留存率来进行，主要包
次日留存率、7日留存率、月留存率。这几的计径如下：
·次日留存率= 一新的用二还登的用数/ 一
新用数；
·七日留存率= 一新的用往后的7 还有登的用

数/ 一新用数；
·月留存率= 一新的用往后的30 还有登的用

数/ 一新用数。
从我关的用留存率来看，一定是平台上有消
费行为的用留存用，这留下来的用的行为就变
重要。我需要解留下来的这用么，方面可以
升留存率。这方面可以用运营，譬如动运营准营
推送就是有对提高留存率的方。
3）收入用评价从该的盈利力，主要从入订单、

营收、下单的用、ARPU、用购率角度衡。其购率是
一定期内购 2次 2次以上的用比。购根据时区的不
同可分为、月、季、年购率。用的购率越高，该
带来的用的黏越强。
表8-1　质分度（示数据）

8.1.4　斗分
斗分用分程关的化效，常助斗
展现化效。斗是一种斗的可视化表，用该
方可以直观的整程、务的化径、不
同生命期阶下的用表现。一列化率的分，可以
速定位题，方运营及时调整运营略。
斗的主要运用景有以下几：
· 程的关径化，比如电常用的购程；
· 务价径的化程，比如常用的AARRR 的价
化；
·虚程，比如生命期区分的不同生命

期阶的用。
化斗帮助务分来访用详页访、加购

击、下单击、支关环的化况，从帮助务
不断化径，如 8-7 示。
8-7　用化斗（示）
8.1.5　客服话术
用客服也有广的应用。生常到这样的
景：当我平台的客服诉、询馈见时，客服
可以准确说出我该平台的历购况，上一次询的
题理，这也是画像应用的景一（如 8-8
示）。
8-8　用展示
客服可以根据来电用的画像对提出解决办，以及

对高价用提 VIP客服专项服务。
8.1.6　特征分
前4 介的是从单一度分用特征，用特征分
可以组来定义（详见7.5 ），后对定义从
度进行视分建立对照组对比分。
根据分验，分时一定要去对比，单看单

的分布有，不对比看不出差。助画像
，可以分定的用度上的特征况，如 8-9 示。
8-9　特征分
8.2　准营
8.2.1　短 / 件营
日常生我常从许接收到营来的。一条关
包到账的短消推送可用开已访的
App，一条关单里面降价的件消推送可刺用
开推送接直接下单购。
这营是如助画像实现的？
当画像成后，务可以根据务规则组

定相应，将该推送到对应的务进行运营。关
用画像端进行营的详细解决方可以参 7.4 9章的
实。
如公司初创阶，有力入、接层面的开
时，也可以数据分师写Hive SQL语句，组用出
对应的用数据。后将该用相关数据给到对应务，
将数据导入到三方平台后以短、件方进行营。
8.2.2　效分
准营是数据价的一重要出，如评效好，不
同务的有不同的关重。来看，可分为提升导
GMV提升导两种况。
有的务的KPI 是，此关的重是提
升，如负责Push 务的。这种况下，对效的分对比
用定进行准推送方带来的击率，与有用用画像进
行无差别普推送带来的击率相比是有提升、提升少百
分。
有的务的KPI 是GMV，此关的重是ROI的

化，如短营、呼营的务。这种况下，对效的分
关营动营少用、实际触少用、有少
用实际费以及带来的GMV，对比实际营成本（短、呼电话的
成本）分营的ROI。
下面分别两进行说明。
1：对目准消推送带来提升
电负责运营的给用推送消，进用平
台的度。用画像前给用的消为无差别推送，
有对用行为特推送消，消推送的击化率一直
7%上下动。
画像上后，务用定用，根据用属
行为特征将用划分到不同的去，对这分别文
后进行推送。如，近×日览女装且近×日有来
访的用，给这用推送女装营的消。助这种细化推
送的方显著提高整用验，消推送的击化率
到10%左，如 8-10 示。
2：对目进行短营带来营收

动期，电公司运营申请一财务费
用短营用，目是用来访App以及实现订单的化。
8-10　画像消推送上的应用效（示数据）
运营根据动的目营，用画像组用
定后推送到短送平台。短送后的几日内， BI报
表监营用的访、下单况，如 8-11 示。动束后
计现本次短准营给GMV带来显著的提升。
8-11　画像短营上的应用效（示数据）

8.3　化推荐与服务
用画像的开程不开用度的数据，同时
也开用行为特征库、特征库、家特征库相关数据。为
开用相关、内容的化推荐提底层数据支
持。
另，画像可以为用的化服务提支持。

如，对高质用提 VIP专客服，可以让该分用受到
高质服务，有效提升用验。
8.4　本章小
本章介用画像的应用方。首先，对务从营分
的度分解用特征，可进一步消推送、短、
件触、运营用，有效帮助 GMV 化，提升用
验。同时画像数据、用行为特征库的建为化推荐相关
进行数据掘提底层支持。
9章　实详解
用画像的落应用景有，本章一实来景
化现用画像的应用应用方。
画像去方面的数据分、触用的运营方，可
以速将数据应用到服务层（T+1甚至实时即可上应用），到用
用馈后效分，代营略设计。相比
的项目制，项目理提需、上版本，后进行效分、
代再化的时期将短。
9.1　风控诈预警
9.1.1　应用景
风控诈预警戏、电、融、家政、社领有
着广的应用景，如家政领识别风险、贷风险的用
，提高从质准入；融领识别存风险、
贷的题用，对其绝放贷；电领识别出薅、下
单收行为存常的用，对其进行隔离理。这应用景
可以用画像来实现。下面融领的风控诈来
介。
消费融领对用贷前准入有着严的审核，对用
、设建立画像，助画像数据风控略规则、
，进生成完的审略，对高风险用进行有效识别，帮助
减少工参与环，实现动化审、授，有效规营、
易的风险（ 9-1）。
9-1　画像贷务景的（示数据）
当一用申请贷时，接入用 id 设 id
，服务层（一用HBase）询对应的用设 id
（ 9-2），生成用风控报（ 9-3）设风控报助
务进行审核根据风控规则进行动化放贷理。
根据调用的画像数据，前端展现该用度的风控。
建风控诈画像的程，用授权数据

建用 id、机号码、设主、度的画
像，从帮助有效建立用、机号、设的黑白名单，从
为贷、租赁、家政景的应用提评参。
9-2　用风控数据（示数据）

9-3　用风控报（示）
9.2　A/B 效试
本着数据驱动的理，正切换到用种规则运营用前，
需要 A/B 试来看AB 组可以带来更高的化，带来的化
是少。助画像可以方实现对两组运营效的
对照试。
9.2.1　景
零食消为动期获好的，计划
消推送的方种草新上市、的功列文章，为
动造势，化。为准定位目，运营
现计划两 A/B 效试：
1）不同内容题对的；
2）准推送相比普推送带来的提升。

整项目需要理如切分AB组，如设计好AB组
规则效监。下面分步骤介画像如切入AB 试
。
1.对AB组切分
为 A/B组试，首先需要好的切分，平台上

cookieid的生成机制，虑从cookieid尾号入切分。可以将
用划分为A/B ，也可以用创建+随机分的对进
行切分。
2. 试文题对的方
平台运营为动期更用来访App，计
划动预期取少用一版文题的AB效试。
该试方，控制组A 取近x 来访、cookie尾号为a，
且近x 内览/收藏/加购该零食的用，给该用推送零文
A，对照组B 取近x 来访、cookie尾号为b，且近x 内览/
收藏/加购该零食的用，给该用推送零食文 B。控制组
对照组的用相同，文不同，后监控两组的击率
小，进分不同文对用击的。
3. 准推送相比普推送带来的提升的试方
用画像细化推送前，平台对用用无差别推

送消的进行推送。为试细化运营相比无差别运营带
来的提升，运营决定近期重运营的零食营
一 AB效试。
该试方，控制组A 取近x 来访、cookie尾号为1，
有目好的用，对照组B 取近x 来访、cookie尾号为2，
且近x 内览/收藏/加购该零食的用。对AB组用消推
送相同的文，后监控两组的击率小，进分准营
推送带来的小。
9.2.3　效分
AB组消推送上后，后需要搭建监控报表来监控制
组试组的化况（如 9-4 示）。
9-4　A/B组效监报表
本介如用画像 Push 进行A/B 效试，

同样，短、件其营同样可助此方进行A/B
试。
9.3　用生命期划分与营
生命期的是一生命从出生到的展程，用的
生命期的是用从接触（站）到离开（站）的展
程，用的生命期价 LTV（Life Time Value）/CLV（Customer
Life Value）的是这展程用为（站）带来的价
。
对用生命期的划分、分用不同生命期阶的行为

特征，以及切入运营，分运营效，从有效提升用的化、
购、留存，公司有广的应用景。本主要介如划分生
命期、分用不同阶的行为特征、运营略，以及将用画
像如切入到整程，提升分用、触用的效率。
9.3.1　生命期划分
用生命期主要分为：入期、成期、成熟期、衰退期
期5 阶。用进入后，不一定完一完整的期，
阶有可离开，阶为（站）带来不同的价
。
· 入期：此时用刚来，用试探来试用，尔用

一下，此时用的价相对来说比低。
·成期：用不定期来用，并开始进一步验

功，此时用的价有提升。
·成熟期：用常用，并以分的来宣
，此时用的价比高。
·衰退期：用原（如代后用不欢）不再

常用，此时用的价衰减。
· 期：用对非常不到替代的同的

，不再用该。
用运营的程，我不一上来就期论，是要定一

目，目我解出关，要提升这关
需要去用相应的核需。比如用生命期分的核目
是：提升用生命期的化率，提升用的留存（用的
参与程度）。的持化及用留存的提高程，用
的生命期也历一完整的历程，其价也到提升。
这两目我将其解为如下，如表9-1 示。
表9-1　化核解
用的生命期，我可以将用的解如下，如 9-5
示。
9-5　用生命期用示
与用生命期的阶对应的关，如表9-2 示。
表9-2　用生命期关解
Melnick的理论及互的实际况，将用的生命期

价解为：
LTV=（客月的下单频次×客单价× 利率）×（1/月
率）
　　=（客月的下单频次×ARPU× 利率）×[1/（1–

月留存率）]
　　=用生命期内下单次数×客单价× 利率
其，①ARPU（用的平收入）= 时内的收入/同

时期内用数；② 率：率的是一时内，有少
比的用不再用的。以率= 时内的用
/同时期内的用，比难定义，留存比好定义，故月
率近价 1–月留存率；率的数用来表示预的用生
命期，如一的率为10%，则对应的生命期为10
月。
用生命期务主要有以下几应用景。
应用一：根据解为提升LTV制定不同的运营略
从解公来看，运营需要的是尽可证的质，确
进来的用的有效，提升用的质及数，尽降低获取用
的成本，并应用样化的运营提升用化；用生命期
的阶，对不同的用进行原分，提升用
度。
应用二：评用运营动是盈利
单用利=用生命期价 –获取用成本–运营成本=CLV

–CAC–COC
初期一直以补贴用的来留住用，此以往，

资一旦断裂，将无以为。有当用的利 0时，
、持稳展下去。
设一用月的收入是20元，月的率为
50%，用播5次，被播的用月的收入为5
元，月的率为70%，则
CLTV=20×1/0.5+5×5×1/0.7=41.43元。
如获取用的成本加上运营的成本用的生命期价，

么显这用是不盈利的，如获取用的成本加上运营的成本
小用的生命期价，这动是的。
应用三：资报率（Return On Investment，ROI）
根据LTV的公及用利的计公，推到资报率的计

公：
ROI= 化率×ARPU/（CAC+COC）
从ROI的计公来看，要提高ROI，需要从以下3 方面着：
（1）提高化率
提高化率，一开，二。谓开，的是要不断
种方来获取新用，的是减少的用及挽
即将已的用。这里主要介。主要从以下两
出来最化减少用。
a）从出，具的研究，有离的用预警
是无义的。首先我要现有的出用是一步
的，再具的进行改进。比如，是一环生退
的况，就推动解决退的题；再如，是下单化程
琐、支单一，就推动程化、支样化。
如，前面我分用的生命期有关用到的化率
的关，从这公来看，关的化率，出
化率比小的，定位原进行化。一具应用的子，
的册率差不，不同的下单化率差比
，此时用设定风控规则来评的质，为这是册
来费的，现是有刷单，对刷单的止后，
整的下单化率就上来。
b）从运营出，成种子用，证下限，具的

运营略，如奖、到送积分，将质内容推送给准用，进行
用建设。
（2）提高ARPU
互的利期已去，么如住现有的用来提高ARPU

？可以从住用的需来展开：①用放券、种价
币、包方，来用占宜的理，进用下单；②
对用设立，并对不同的用设立不同的福利规则，
用对位高一的诉；③建立准营平台，准定位
用，并对这分进行化准推荐，用的特定
景需；④提示用不被露，用对安全的诉；⑤
生日提减券其福利，用对的认同需。用以上方
来进用下单，可直接接提高ARPU。
（3）降低成本
降低成本分为两。
一是降低用的获取成本。实现的方有，比如：①

数据分化质；② 预警，对即将的用进行
适的运营，提高用留存，加用对的参与度与黏；③与其
平台，资共；④其。
二是降低用的运营成本。实现的方也有，比如：①搭建

准营平台，对一用的属进行、对即将的用
进行推送、对高客推送单价高的；②将常用的分
化，建立常用分的BI报表，并支持速代，支持细分
项下。
根据上面对用生命期核的解，对用生命
期一环的划分，可以从以下几度着。
1）App 用阶：用用App包安装、册、首次购、

购、默、卸几重要阶。
2）RFM：从R（用最近一次今数）、F（用近x 消费

次数）、M（用近x 消费额）这3 度虑用消费力。
3）访时：从最近一次访今数分用是已。
根据上面的度，对平台用的生命期从购额、购次

数、购、购时度去分用当前生命期的
阶，进一步对该平台用相关数据进行调研，最终出如下划分
（如 9-6 示）。
9-6　用生命价期划分（示数据）

9.3.2　不同阶的用触略
从用用的阶来看，包从安装、册、购、购、
成为诚用离开阶。这里取平台一时内的用
数据，分用不同生命期阶的行为特征（如 9-7 示）。
9-7　用阶的化况（示数据）
9-7 9-8可以看出从安装到册平用时14 ，其 61%

的用安装当日就完成册，70%的用安装3日内完成册，从
安装到册的化率为30%。进一步分可知册用 30日内率
为30%，比未册用的度高10%。此新用安装的前3日内可
新包、券动，消推送、短触用
，进导用完成册。
9-7 9-9可以看出从册到购平用时10 ，其 43%

的用册当日就完成首单，可见用的册目的程度上就是
为下单。76%的用册9日内完成首单，从册到购的化率
为20%。由此新用册9日内，可新包、券、减、
用兴内容的推送方，消推送、短触用
，进导用下单。
9-8　安装x 后册用占比（示数据）
9-9　册x 后购用占比（示数据）
9-7 9-10可以看出用首单后15 ，到购的

高峰期，购的刺也应此阶前后进行。购用 50%以上
35日以内进行购，80%以上 90日内进行购，可月对首单
用进行。
分用留入期，有20%用进入成期。从入期到

成期平需要8 ，成期进入成熟期化率为10%。进入成熟期
后，有一半用 30 内未再次购，仍持，需要积导
购。初步来看，用生命期阶有的可提升空。
9-10　首购x 后购用占比（示数据）
对用生命期不同阶进行差化运营，可最化用

价，如 9-11 示。
9-11　用生命期延略
前面对用生命期阶的分（见表9-3），需要对不
同阶的用取不同的运营略进行触。
表9-3　用生命期阶的分
· 入期：对已安装未册的用导其册，对已册
未下单的用导其下单。对该阶的用，可消推
送、站内广推送触，短用购时隔，实际可
包、券的方励用短从安装到册、册到首次下单
的时隔；
·成期：分可以看出一新用首次购 1 月内有
购行为的其留存率有19%，1 月内有购行为的留存率到60%
以上。此阶需要养用的用习，短用购时隔，
刺其购。可消推送、站内广推送触；
·成熟期：提升用，加强触用的，如消推送。

随着用购频次的加，用黏强，购的时隔
越来越短。加用购频次可设计富的购物景进行景营
。另，可减、送动提高用客单价。养用的
用习，刺其购。可消推送、站内广推送触；
·衰退期：建立用预警机制，对用进行挽留，提升

用度，可短 / 件/主动呼触；
· 期：由验可知获取一新用的成本相比挽留一用

的成本普高5 以上，此对已用进行，可短
/ 件/主动呼触。
9.3.3　画像生命期的应用
用画像端可帮助务速分生命期不同阶用
的特征、适的触用。
1.分用特征
前面的介，读已知如对用进行生命期的划

分，端可出生命期不同阶的用，
视分功（详见7.5 ），分不同阶用的特征，如 9-12
示。
9-12　视分用
2. 触用
根据前面讲，生命期不同阶可不同（消推
送、站内、短、件）来触用。画像的用分功
支持组好用，后以种方触到用（详见
7.4 ），如 9-13 示。
9-13　触用
3.分营效
画像端定用后，将对应的 id写入到Hive相应表
。数据分师可以从Hive表提取相应数据分营效。
此，触用（包消推送、弹窗、推荐、短、
件、电话呼）的程，不同的触成本是不一样的，
触用时一方面需要虑营成本；另一方面需排除同时
触用，给用造成骚的况。这是可以用画像
排重功进行控制的。
9.3.4　应用
一：消推送新安装用提高用册率
务景：平台新安装用正常册率一持 30%左，

用的册对后的下单、购行为有重要的用。提高新用
册率是运营努力的方。
解决方：根据数据分现，80%的册用是安装3日内完

成册行为的，新安装3日内成为一重要时。运营用画
像定安装3日内的用，将新包、券动，消
推送推送给该用。 A/B 试现，消推送后的册率
比未推送前提升 15%。
二：短营新册用提高下单率
务景：平台新册用正常下单率 20%左，为提高新

册用的下单化，运营近期要对婴一次营动。
解决方：数据分现，76%的下单用是册后前9日

内完成首次易的，新册9日内成为一重要时。运营
用画像定新册9日内，并且览/收藏/加购婴的用
，将新包到期提及婴成文，短
推送给该用。 A/B 试现，短营的该用的下
单率比未营的新册用下单率提升 6%。
三：用全生命期营
务景：平台为对用全生命期营，对不同阶用

站内广弹窗落页的分组展示，评用从览、到最终
化程的差。这程， A/B 效试代出更好的
用运营略。
9-14　不同阶用运营略（示略）
解决方：务根据用生命期阶不同，制定运

营略时创建 3组，同时为组分别设控制组对照
组，不同分组的弹窗来试（见 9-14）。
为分触不同阶用利益，务对用状 3 分
组，分组分别设控制组对照组，不同分组的弹窗展现
来试（如 9-14 示）。
进一步根据运营略画像定好，并推送到对
应的务（如 9-15 示）。
9-15　助画像定
务画像组用定并推送到广
，进一步 ERP的广根据创建的 ID 号对应的弹
窗、落页、文材（如 9-16 示）。
9-16　不同组用弹窗入（示片）
AB组上运营后，BI分师报表日监不同
的化况。分，有弹窗用详页化率、加购化
率、下单化率、购化率方面表现好无弹窗用组（如
9-17 示）。
9-17　报表用化（示表）
试，用的务决定对不同阶用用
首页广弹窗这一略来提高用化率。
9.4　高价用实时营
9.4.1　项目应用景
平台运营为进高价新用的留存，制定运营规则
——“首日册的新用，如其册当日消费 100元则对其进行短
营，短附有平台送包的接”。
如用甲，上午平台册后消费 60元，下午平台消

费 50元，此时该用平台册当日计消费 110元，则立马对其
送短进行营，营短附有平台送的包，以更好留存
该高价新用。
该务景下需要用实时数据进行支持，Spark Streaming将从
Kafka 取的数据解后写入存表，这里由需要计新用当日的
计额以用到存表。后对存表的明细数据进行
计后写入到HBase （ 9-18）。
9-18　实时调用方设计
9.4.3　HBase应用景小
本我用HBase存储用实时数据，画像实应用
HBase 景下可为服务层提接服务，来说HBase可
存储离数据实时数据上接调用（ 9-19）。
·离写入：数 ETL 将写入Hive表的数据生成

HFile 后buckload到HBase对应的表。景示： 7.4 ，当
务需要调用HBase 数据时，可以将 ETL后的数据
先离写入Hive表后将Hive表buckload的方将数据写入HBase
。
·实时写入：SparkStreaming/Flink实时消费Kafka 存储的上
数据，单理后写入HBase ，接实时调用HBase 数据
运营用。本讲的高价用实时营就是一种实时写入的应用
景。
9-19　数据写入HBase 景
本介实时写入HBase的景，下面再看一种离写入
HBase的景。
运营画像出其运营条件（如规则A则触
推送券）的用，将该分推送到上营（
如推送到HBase表usergroup_HBase ）。
用甲（用 id：66600723）该务规则A，被入该

。当该用触规则时，上接送该用 id，请询HBase表
usergroup_HBase，判断该用上是组的条件，当
其推送券的条件，对其进行券的送。如用不
该规则A，则不对其送券。
关离写入HBase的工程化实现方可参见3.3.3 内容。

9.5　短营用
9.5.1　景
平台上消牌家日常运营客程现，目前
消同质化严重，牌竞，虽用购率高是
诚度低，用普对动的敏度。此，可对消
牌的易，定期短准触目用，导其进行
购。
9.5.2　画像切入及其应用效
家助画像进行短营定目用的时，主
要从以下几方面虑建立务规则：
1）短敏度：有的用对营短的敏度差，比如从历

数据来看，推送给其10次短，开一次从未开。虑到
短营需要成本，需要对这用进行排除，减少对用的
。
2）无效机号：对平台上随写非己的机号、机号

已废/更换，对接收到的短 “TD”的用来说，短
无接收，属 “短黑名单”用，同样需要对这用进行排
除。 9-20 的示数据显示排除黑名单用对营效的提升程
度。
3）对营兴的用：近期曾次览、收藏有加

购、下单行为的用是对存的用，画像
出这分用，减券包利益进行营。
助画像，有效提高短送的率击率，如 9-

20 示。
日常生我也常收到的营短。如，我5月

曾购牌的牙，3 月后，该牌给我送一条营短
（ 9-21），此时我的牙正好用完。其推送短时应该充分
虑用购及消期，从这方面来看非常用购
需。
9-20　短营效分（示数据）
上面的短进用的购，同样可短营用
推送购。如，次我购到石家庄的机票，一儿就
收到一条租的营短（ 9-22），短文明突出
这几内容：①目的有租服务功；②租的日最低费用；③租
券已到本账。对有飞机目的市驾出行需的用
来说，这条短是一条有用的。
9-21　消的营短
9-22　出行的营短
用用画像，从适的时适的适的
对目客进行营（ 9-23）。
9-23　准营客的
9.6　Session行为分应用
9.6.1　关用行为分
用行为分是获站访本数据的况下，对有关
数据进行计、分，从现用访站的规，并将这规
与络营略相，从现目前络营动可存的
题，并为进一步正重新制定络营略提据。
日记几记用的有行为，其有是用的，

比如用的访频率、平留时，有是特定景适用
的，比如盈利平台的下单行为、社区的内容布行为。用行为的
相关可分为黏、参与度、化，下面详细进行
介。
1.黏
一需要关的是用黏，如访频率，取用

的数，并数对用分，用加百分比来
对的数据展现，方对比（：数据为虚数据），如
9-24 示。从我可以看出 1 的用是最的，可这
分用的规，定位这分用数少的原，后制定适的
运营略，尽让的数提升。对数
6 的用，可以将这出来，看平台的实用致况及
诚度比。
9-24　用分布示
9-25是带平曲的散，显示的是近60 访的用的
最近一次访离当前时的隔数的用分布，表示的是最
近一次访的隔数，表示的是对应隔数的用比，从
可以直观看出时隔对应的用况，用的
生命期来看，我可以将访数 10 的用定义为默用
。可对这分用细分看用为隔这么有访，比如看
最后一次访看么内容，对这用的特征进行分，
将准质的内容推送给这用看挽的用比率，取分
用进行调研，寻的分可以化。
9-25　用访期示
接下来是看用的留存，用留存的本质是（站）用

需。要分留存，我首先要留存的定义，留存是用
下一时有少用仍旧的比。时分有次日留
存、7日留存、15日留存、留存、月留存、季度留存，分
有App留存、H5留存、Web留存，用分有新用留存、用
留存。一来说，用的留存高新用的留存，这可以
用来进行数据验。新用的留存主要取决用的来
导。对新用细分的留存分就是数据驱动运营的典应用，比
如用留存的分可以对运营质监控，对新用留存
的分可以出质的。
9-26以细分用留存来一子，从可以看出，对

言，App的留存要 H5及Web，这智机的普及是分不
开的。还可以细分看3端留存的新用的占比及端移用的留
存，及端细分的留存对比，评质。
9-26　用留存示
2.参与度
二需要关的是用的参与度。度为评判用参

与度的一关，并有准定义，常的是完成一关动
的用，参与况一条件的用。比如电子务站的
下单、社的互动、视频的视频播放，登、消费、
用可定义为。用关定义，有准确定义用
，我解用的况。比如初期，为数据
看来好看，数据可定义比宽，比如就，有
对用的定义比严谨，比如有消费的用
，这样数据出来虽比小，看来的用比少，
是这样定义的用是的盈利用，用该来映题
比敏。
我以定义登（站）即称为来，登
（站）来，时分可以分为日（日用，DAU
—Daily Active User）、（用，WAU—Weekly Active
User）、月（月用，MAU-Monthly Active User），一
用DAU/MAU来为站的开率，该越说明
站的开率越高。
用的分主要有对比分及细分。对比分主要可以看时
变化趋势及竞数据对比。这分比直观映的用
趋势，也比对己同的致况，以更
好制定下一步的目及。如 DAU有一时明显，此
时并不是数越越好，需要细分看这用的留存及其化况。
为有可是动一用，这用具质如，需
要进一步分。
表示用参与度的另两是用的留时及用的访
页面数。为么要用这两来表示用的参与度？为用的
留时可以接映页对用的程度，可以接映是
用的需及页面的设计是理。对盈利来
说，其目就是化，让用下单，如用下单前的页面
，这用就有完成化。从 9-27来看，用有页面
A、B、C，到目页，完成化。则用页面A的留时为
用离开页面A的时 –用进入页面A的时，用到目页前共
访 3 页面，这3 页面分别是页面A、页面B、页面C。
9-27　用访页面示
比如我随机生成一组数据，如 9-28 示，看下用的平访

时及平访页面，现三的时这两剧下降。
事出有。此时需要详细定位原，是数据有上报，还是日
解出题？如数据有题，么是改版后有导机
制，用不到入，还是改版后新加程，比如实名
强制措施，用对新不？这需要数据根据一
列设定及来具定位。
3. 化
三需要关的是用的化。分用的径化主要

有3 用：一是数据用的访细，访细映的是用
的行为特征，访细来推用的理动；二是
用的访行为来用访程可碰到的难，看整
径运营前设的是一致，如不一致，是环不一致，定
位具的原，调整页面布局；三是用的访径的程
，寻有价的可代径，对进行化。
9-28　用参与度示
要分用的化况，不需要熟知务程，也需要熟知数

据程，即将务程化成数据程。由互行独有的日
数据记用的有访行为，故我需要熟务的设计
程，对务的细程及数据上的记、获取、字
，将务程化为数据程，再将数据务，住务
的关径，层层剥离解再组，即可成务化的完整分
。对 App 可用Charles Fiddler 包工具试关。
分用的化况可以从两的方着，一是从的整
运营况来看，用从到下单的整程；二是从细分的
关径来看，用接触到完成化历的步骤，这已
8.1.4 详细。下面就一应用景进行说明。
9.3 我列运营景的有化，如 9-29
示。
对这关的数据监控，我可以从整及细分、
细分时、细分动来看不同的化况，如表9-2 示。出有
题的化。比如细分的景下，设是用
费，从两进来的用后的化行为如表9-4 示，是来评
判这两的质劣，同用的况下，我应么判
断？
9-29　用化一览
表9-4　质监控
设用为10000 ，将化的化为成本绝对
，如表9-5 示。
表9-5　成本监控
显，从成本的角度来说， 1要 2。当，后我
也需要分不同进来的用的ARPU，看整的营收况，评
的整质。
9.6.2　景
这里首先一典的景来介用访 Session分应用的
景。
用进入电站 App的一典程包，进入首页后搜

关词、击击推荐进入详页，详页览
击加购后退出该页面搜其览，最后进入订单页进行支
，览退出App。这一列行为就是用的行为，如 9-
30 示，对用这样的访话，我称为Session。
9-30　用访行为
Session 记用么时，么样的行为，览
么页面/ 。一 Session的切割为定时，如定义App端
Session的切割时为5分时，即用次访行为如离上一次
访行为 5分内，则记为同一次访，如离上次访 5
分则记为两次不同的访。 session_id可识用的访，同
一次访的session_id相同，则不同。
Session对用进行分具有非常重要的用，可以从用的

访次数、访径、访度分用特征。进一
步分用首次访的Session对掘用购行为具有重要
的义。
本章介的Session访行为分是对4.5 介的用
特征库进行二次开的础上，进一步掘用首次访的行为特
征。下面详细的介。
9.6.3　特征建
新用首购当次Session 购当次Session的行为分特征
建的程，可 4.5 建的特征库进行二次开。日期分区
记新访用的特征，可从行为事件、、特征、
览时度建特征。
与4.5 介的用特征库不同的是，4.5 建的特征库是记

用一次行为的明细，本是对用首访行为进行，将其
成一条记。表设计参度表9-6 示。
表9-6　Session分特征库
下面介如取用首次访的Session。
这里有一记用击行为日的底层
表‘ods.click_event_log’表，从该表对当日访的新用当日
访时正排序，取一次访时对应的sessionid，即是用首
次访的行为记。示代码如下：
select cookieid,
sessionid
from ( select cookieid,
eventtime,
sessionid,
row_number() over(partition by cookieid order by eventtime
asc) as rank
from ods.click_event_log # ODS层击事件表
where data_date = "data_date" # 当日期分区
and is_newuser = 1 # 判断是新用
and cookieid is not null
and cookieid <> ''
) t
where t.rank = 1
group by cookieid,sessionid
上面的建，最后到用首次访行为特征的Session表，

如 9-31 示。
9-31　Session分特征数据示
后进一步对用访特征的Session表进行视分，可以从

度掘用首访特征。
9.6.4　分方与论
对建的首访用行为特征进行视分，可以从用访
径、访、览价区、对敏程度度
掘首访用特征。
下面对用访径进行分的实来介。
// 创建SparkSession
val spark = SparkSession
.builder()
.AppName("FirstSessionAnalysis")
.config("spark.testing.memory","2147480000")
.master("local[*]")
.getOrCreate()
// 读取原数据下单用
val peopleRDD =
spark.sparkContext.textFile("C:\\Users\\king\\Desktop\\cookiesession.log")
.map(_.split(",")) // RDD[Array[String]]
.map( row => Row(row(0),row(1),row(2),row(3),row(4))) // RDD[Row]
// 表
val schemas = "cookie,event,ispaid,data_date,time".split(",")
.map(fp => StructField(fp, StringType))
val schema = StructType(schemas)
// 创建视
spark.createDataFrame(peopleRDD, schema).createOrReplaceTempView("people_feature")
spark.sql("select * from people_feature").show(20,50)
看表如 9-32 示，可以看出分用 Session行为径包

以下字：
9-32　用首访Session原始数据
·cookie：用 id。
·event：用访事件，如击加购、访页面。
·ispaid：用本次行为事件是支，支为1，未支为

NULL。
·data_date：访日期。
·time：本次行为事件的时。
用
首访的Session数据，可以掘用集时访
、集访
事件是、主要行为事件后出访、
行为事件进最后下单、访时与访的加是进下单
度的内容。
下面对用首访Session进行掘分的来介，
Scala代码示如下。
val test1 = peopleRDD.map { row => {

val id = row.getString(0)
val event = row.getString(1)
val result = row.getString(2)
val time = row.getString(3)
val isOrder = row.getString(4)
(id, event,result ,time, isOrder)
}} // RDD[(String, String, String, String, String)]
val orderedSessionEventRdd = test1.map { f => (f._1, (f._2, f._3, f._4,f._5)) }

.groupByKey()
.mapValues {
itor => {
val eventLst = itor.toList.sortBy(f => f._4)
// 进入日期
val data_date = eventLst.head._3
// 进入时
val startTime = eventLst.head._4
// 离开时
val endTime = eventLst.last._4
// 进入事件
val startevent = eventLst.head._1
// 离开事件
val endevent = eventLst.last._1
// 访时
val start = data_date.toString + " " +startTime.toString
val end = data_date.toString + " " + endTime.toString
val visitdiff = DateUtils.timeDiff("2019-01-12 03:22:39", "2019-01-12
03:22:49")
// 首 Session内是下单
val ordered = if (eventLst.head._2 == "NULL") "0" else "1"
// 访页面数
val visitnum = eventLst.length.toString
// 出时
val lastEvent = eventLst.last._1
(eventLst.mkString(""),
startTime,endTime,startevent,endevent,ordered,visitnum) // 次数时
}
}
val rowRdd = orderedSessionEventRdd.map(tp => {

val id = tp._1 // cookie_id
val eventLst = tp._2._1.mkString("") // event_cts
val startTime = tp._2._2 // startTime 进入时
val endTime = tp._2._3 // endTime 离开时
val startevent = tp._2._4 // startevent 一访事件
val endevent = tp._2._5 // endevent 离开时事件
val ordered = tp._2._6 // ordered 是下单
val visitnum = tp._2._7 // visitnum 本次访少行为
Row(id, eventLst, startTime, endTime,startevent, endevent, ordered, visitnum)
})
val sct = StructType(

Seq(
StructField("cookie_id", StringType),
StructField("eventLst", StringType),
StructField("startTime", StringType),
StructField("endTime", StringType),
StructField("startevent", StringType),
StructField("endevent", StringType),
StructField("ordered", StringType),
StructField("visitnum", StringType)
))
spark.createDataFrame(rowRdd, sct)
.createOrReplaceTempView("v_tmp_session")
// 看理后的数据
spark.sql("select * from v_tmp_session").show(20, 40)
对RDD进行理后，表主要包以下字：
·cookie_id：用 id。
·eventLst：用访事件列表，将用本次Session 一访

事件、是下单、访日期、访时为列表一元进行存
储，数据如“（App_open，NULL，2018-12-30，03：30：40）
（loginreg_view，NULL，2018-12-30，03：30：42）
（loginreg_next_click，...”。
·startTime：用本次Session开始访时。
·endTime：用离开本次Session的时。
·startevent：用本次Session 的一行为事件。
·endevent：用本次Session 的最后一行为事件，即退出

本次Session的事件。
·ordered：用本次Session访是下单。
·visitnum：本次Session访的行为事件数。
用首访Session行为事件分示如 9-33 示。
9-33　用首访Session行为事件分
除以上度的分，还可以进一步从用的访时、访
隔其度入掘用访特征。
Session分还可以到用行为径，径分记用
次访的顺序，可以观察一关前后的
进入况。化关分，可以提升这
的化效率。
val orderedSessionEventRdd = test1.map { f => (f._1, (f._2, f._3, f._4,f._5)) }

.groupByKey()
.mapValues {
itor => {
// 事件的时次排序
val eventLst = itor.toList.sortBy(f => f._4).map(p => p._1)
val firstpath = eventLst(0)

val secondpath = if (eventLst.size >= 2) { eventLst(1) } else{ null }
val thirdpath = if (eventLst.size >= 3) { eventLst(2) } else{ null }
val forthpath = if (eventLst.size >= 4) { eventLst(3) } else{ null }
val fifthpath = if (eventLst.size >= 5) { eventLst(4) } else{ null }
val paths = firstpath + ',' + secondpath + ',' + thirdpath + ',' +

forthpath + ',' + fifthpath
paths.toString // 前5次行为访径
}
}
val rowRdd = orderedSessionEventRdd.map(tp => {

val cookieid = tp._1 // cookie_id
val eventLst = tp._2 // event_cts
Row(cookieid, eventLst)
})
val sct = StructType(

Seq(
StructField("cookie_id", StringType),
StructField("eventLst", StringType)
))
spark.createDataFrame(rowRdd, sct)
.createOrReplaceTempView("v_tmp_session")
spark.sql("select eventLst, count(cookie_id) as num from v_tmp_session group by

eventLst order by count(cookie_id) desc limit 20")
.show(20, 130)
用的访径（如 9-34 示），可以解用前5次访

集行为。
根据用的访径进行分，对设计的改进有帮
助，分用从登、搜、览详页到购的行为径，根据用
环的化率现用行为好订单化的主要。
从 9-35的可以看出用进入App后一次访的

去。
9-34　用前5次访径
9-35　用访 Session
从 9-36可以看出未购用分时览Home主页面，其
次是详页，首购购用分时详页，其
次是目页面。由此建议对未购用访的页面用好，
提更用兴的。未购用有6%访购物页面，与
购用占比相同，建议购物页面加“ 减券/再购xx元包
” 提，以减少有购物的用的。
9-36　用 session访页面分布（示数据）
9.7　效监报表搭建
9.7.1　景
务方应用画像进行营时，运营
希望动收到监报表来诉己目前应用务
的后访、下单化况，以对运营略有化调
整，运营更加有的放矢。是画像的开面务方
搭建一套效监的动化报表。
9.7.2　理
搭建监报表时，主要分为两阶，首先从相关的Hive
表提取数据，关分成一宽表，后整理好一 Excel报表
，最后动报表件定时 Hive 务，将数据插入到Excel
报表后动送。
下面一次解环的实现方。
1.数据提取
负责对接用主动呼营的运营，画像上
到务后，后需要进一步监控该分的访、下单
化况。
根据务方定的规则， ‘10003’‘10004’创建后上到
件营（见 9-37）。
9-37　务方定目用呼
insert overwrite table dw.user_group_info partition(data_date ="data_date")

select groupuserid as user_id,
case when groupid='10003' then '核费用 '
when groupid='10004' then '近7日新册女 '
end group_name
from dw.userprofile_usergroup_labels_all
where data_date= "data_date"
and tagsystem = 'email_system' // 件 id 号
and groupid in('10003', '10004') // id 号
2.报表动化
整来说，好一化的Excel数据理需要分三步：

一步需要根据分的内容及，设计好报的现内容与现
，即根据分度搭建数据报的。可以先动设计好报的
版；二步厘的关，明确报的现内容，设计
报的内容实现，建立数据表数据化表；三步照设计
调整报元及，设计动化程。从数据表导入数据即
可报正文页到最终现的。实现程如 9-38 示。
9-38　Excel报动化程
数据库：对务数据及日数据数据集成存

储的化集成环，需要数据分师用HQL语言从数据库提取数
据；
原始数据表：是用存放次报需关数据的表，
一用HQL语言初步的数据及数据预理（如、排序、离
散、换）从数据库提取出来；
化数据表：用来动用数据的数据，并进行相应的

数据化、计、表绘制及报文字组工；
Excel日报正文：根据分，组织用“数据化区 ” 相

应组好的数据、报文字及绘制好的表，以一定现出来。
接下来一 Excel运营数据日报来说明化数据理

报是如创建的。
从数据表到数据化表
本小将对上一介的数据表数据化表的创建程展

开详细介。Excel原始数据sheet用存放从数据库提取的原始
数据二次计到的数据。一分为原始提取数据、计数据
助数据3 区。如 9-39 示。
9-39　Excel原始数据表
提取数据区用存放从数据库原始提取出来的数据；助

数据区用存放一时的参数，为助列计另一列数
据；计后数据区用存放计到的数据。
Excel 化数据表的创建是整 Excel 动化理最为

关的一环。对数据表建立动的数据用，用数据表的
相关。数据化表主要用到日期控件、MATCH函数、TEXT函
数、OFFSET函数 INDEX函数。下面我分4步详细讲解数据化表的
建立程。
一步，设日期控制单元
助日期控制单元我可以看目日期的数据，用
控制可以动调整相应数据列变化。
首先我开Excel表， “开工具”的“插入” 项卡下面

的“表单控件” 二项组，如 9-40 示，表的
空白区曵鼠即可生成控件。
击该日期控件 “设控件 ”命令，如 9-41 示，

弹出的“设控件 ”对话击“数据区 ” 项的，
进入到数据表对应的日期，如 9-42 示，确认操
。后设 “单元接”，即当我控件日期后存放相应数
的位。这里我放数据化表日期控件的旁，如 9-43
示。
9-40　日期控制单元控件
9-41　“设控件 ”对话
9-42　数据表的日期
9-43　日期控件的用
至此，当我数据化表的日期控件对应的日期时，旁

单元即可显示该日期对应其数据表的位。接下来我将
Excel函数建立数据与日期控件的关，改变日期
时，对应的数据列成相应变化。
二步，从原始数据表动用数据
这里我 Excel函数从原始数据表取报需的分数
据，取的时，由上步骤的日期控制单元控制。时度可
根据务需要进行调整。这里我详细讲解数据动用涉及的函
数。
OFFSET函数以定的用为参照，给定移到新的

用。的用可以为一单元单元区，该函数的如
下：
OFFSET( reference， rows，cols，height，width)
OFFSET函数是移单元用的函数，这移不是原始单元内

容的移，是用单元的生变化。该函数的参数
义如下：
·reference：是移的，为移的用区，须为对
单元相单元区的用；
·rows：是移的行数（其正数表示下移，负数表示上
移，0表示不移）；
·cols：是移的列（其正数表示移，负数表示左

移）；
·height：是要的用区的行数；
·width：是要的用区的列数。
当参数是正数的时，单元用区是以位移
单元为左上角。如不改变用区的小，、参数可
以省略。单元入公后需要同时下Shift+Ctrl+Enter ，组
完成入，入后显示公用号来，此时表示公
效。如 9-44 示。
9-44　OFFSET函数的用方
当记日报数据时，数据是从行上不断下加的，以应
定单元的上方。
INDEX 定位的内容，该函数的如下：
INDEX(array，row-num，column-num)
·array：表示要数据的区，其为单元区数
组；
·row-num：要数据的行号；
·column-num：要数据的列号。
INDEX函数该数据理的用方如 9-45 示。
9-45　INDEX函数的用方
MATCH函数可单元区搜定项，后该项单元
区的相对位。该函数的如下：
MATCH(lookup-value，lookup-array，match-type)
·lookup-value：表示要的。
·lookup-array：表示要搜的单元区。
·match-type：定如 lookup_array lookup_value。

其 1表示小 lookup_value的最，lookup_array参数
的须升序排列；0表示 lookup_value的一；-1
表示 lookup_value的最小。
MATCH函数该数据理的用方如 9-46 示。
三步，报的报文字
报的报文字一包两分，一分是题；另一分

是数据表的论。报文字分可分为定不变的文本随日期变化
的数字分。我将其放相的单元，定不变的文本持不
变，随日期变化的数据我用TEXT函数对其进行化，最后
用“&” 接将文字描数字进行组，效如 9-47 示。
9-46　MATCH函数的用方
9-47　组报文字及对应数据
用TEXT函数可将数据化成定的。该函数如
下：
TEXT ( ，“数字 ”)
· ：是单元内存放的原始数据；
·数字：将原始数据化成我期望的定数据样。
步，制关表
先数据化表出单元数据相关表，由单元数据受

函数控制动用，当改变日期控件时，单元数据将随时改
变，同时表也同步更改。最后报正文用数据化表的
表，同样可实现当改变日期控件时时，表相应调整。如 9-
48 示。
9-48　数据化区关表制
如说“原始数据”表存放的是原始，“数据换表”存放

的是理、加工的数据草稿，么“报正文”表就是这
数据理的“ 面” 。它读展现整数据日报的核
、关内容（如 9-49 示）。
报正文除需要持的准确、，还需要持页面

的干净整。对动化报，我不同的日期时要证报
的正文展示区动随改变。为让读界面更加，我
可以对要展示的（如工表、单元题、）进行
隐藏。
9-49　报正文展示内容
9.7.3　动报表件
为减少重工，数据提取可以用Python 动化本
定时务。将写好的HQL语句放入Python 本，并服务上设
crontab定时调度务，证定时动从数据库提取数据后，
将集写到Excel 并送件到数据需方的。Python 本代
码示如下（auto_email.py）：
#coding: utf-8
search_data = """ 创建时表询昨日运营数据"""
report_data = ''' select * from 上一步创建的时表 '''
import psycopg2
import smtplib
import os
import openpyxl
import datetime
from impala.dbapi import connect
from email.mime.multipart import MIMEMultipart
from email.mime.text import MIMEText
from email.mime.image import MIMEImage
import pyhs2 # Hive环
wb = openpyxl.load_workbook('/home/path/username/daily_report_v1.xlsx') # 开服
务存储径下的Excel文件
# 接Hive环
impala_conn = pyhs2.connect(host='10.xx.xx.xx', port=xxx, authMechanism="PLAIN",
user='username', password='password', database='dwd')
seo_h5_1 = impala_conn.cursor()
h5_result = impala_conn.cursor()
seo_h5_1.execute('''SET mapreduce.job.queuename=root.yydata''')
seo_h5_1.execute(search_data) # 行HQL语句
# 取出数据
h5_result.execute(report_data) # 取出数据
h5_result = h5_result.fetchall()
#放到sheet里面去
sheet = wb.get_sheet_by_name('daily_report') #daily_report表
# 除历数据
for i in range(2,sheet.max_row + 1 ):
for j in range(1,sheet.max_column + 1 ):
sheet.cell(row=i,column=j).value = ''
# 充数据
for i in range(2,len(h5_result) + 2 ):
for j in range(1,len(h5_result[i-2]) + 1 ):
sheet.cell(row=i,column=j).value = h5_result[i-2][j-1]
#关 Hive 接
impala_conn.close()
wb.save('/home/path/usernamet/daily_report_v1.xlsx') # 存Excel文件
receiver = 'receiver_email@xxx.com' # 收件
date_str = datetime.datetime.strftime(datetime.date.today()-
datetime.timedelta(days=1),'%m%d')
mail_txt = """
Dear All,
附件是监日报，请收。
"""
msgRoot = MIMEMultipart('mixed')
msgRoot['Subject'] = unicode(u'日报-%s' % date_str) # 加日期
msgRoot['From'] = 'sender_email@xxx.com'
msgRoot['To'] = receiver
msgRoot["Accept-Language"]="zh-CN"
msgRoot["Accept-Charset"]="ISO-8859-1,utf-8"
msg = MIMEText(mail_txt,'plain','utf-8')
msgRoot.attach(msg)
att = MIMEText(open('/home/path/usernamet/daily_report_v1.xlsx', 'rb').read(),
'base64', 'utf-8')
att["Content-Type"] = 'Application/octet-stream'
att["Content-Disposition"] = 'attachment; filename="日报2017%s.xlsx"' % date_str
msgRoot.attach(att)
smtp = smtplib.SMTP()
smtp.connect('mail.address.com')
smtp.login('sender_email@xxx.com', 'sender_password')
for k in receiver.split(','):
smtp.sendmail('receiver_email@xxx.com', k, msgRoot.as_string())
smtp.quit()
9.8　用特征库目
9.8.1　景
前面章的是电务数据建的用特征库，这
里介另一种医疗务景下建的用特征库及其应用方。
互医疗上入驻行内几十万名专家医生，用

该 Web端、App端 H5页面上与要询疾病相关的专家，并预
后，可以以片+文字、语音话、视频方专家询相关
疾病。专家出解后，用确认并写评价。根据用该
上的务订单与行为数据，可充分掘用疾病特征，以准营
适的医疗服务与。
目前该平台的数据库积订单数据及用行为数据，

为更好支持运营将相关动准推送给有需的用，数据开
将根据用的订单、行为相关数据进行建，建用行为特
征库。
9.8.2　应用方及效
创建用行为表dw.peasona_user_tag_relation，用
特征库的表，该医疗务景下对字的定义如表9-7 示的
调整。
表9-7　医疗景用行为表
景1：对近期诊的用有冒、、痛疾病的

用营相关的医疗服务与。
根据务需，从用行为表取相关的准用。
select userid
from dw.peasona_user_tag_relation
where data_date >= '20190101'
and data_date <= '20190106'
and (eventtype = '1' #用诊医生诊断疾病
or eventtype = '2' #用诊评价写疾病
or eventtype = '3') #用诊医生擅疾病
and (tagname like '% 冒%' or tagname like '% %' or tagname like '%
痛%')
景2：动期，平台要对医院的一重科室医生
营相关医疗服务，需要准取一近期该医院诊的用。
select userid
from dw.peasona_user_tag_relation
where data_date >= '20190101'
and data_date <= '20190106'
and tagtype = '4' # 为医院
and tagname = 'xxxx 医院'
and eventtype = '5' #用诊医生对应医院
9.9　本章小
本章 10用画像务景实际应用的讲解用画
像消推送营、A/B 效试、用生命期营、用 VIP
专属客服景的应用。9.7 讲解如搭建报表画像推
送务的数据务上的应用效。
从上前后的数据分效来看，对的细化运营，对

、GMV、用验有显著的进用。
附　用画像项目规划文
下面是一画像规划说明，希望为需要写文的读提
一种方。
文记：
摘要记：
变更记：
1　言
1.1　项目名称
×××用画像及其应用
1.2　项目景及要
互步步入数据时代后，不可免给用行为
带来一列改变与重；其最的变化莫，用的一切行为
面前是“可视化”的。随着数据术的入研究与应用，
的专日益样利用数据来为细化运营及准营服
务，进入掘的价。是，用画像的也就应运
生。
用画像可以的服务对象更加，更加专。本项目分

别从用属、订单消费、行为属、用好、疾病诊
、客度6 角度建用画像； MySQL（关数据
库）数据平台进行集分，分别从用别、内容、行为
特征及务景方面进行数据，实现与应用景
数据共，用千千面方进行UI数据可视化展现，实现细化
运营及确营服务。
1.3　项目目
全务运营下，用画像及应用 MySQL（关数据库）

数据平台集分，用特征封装成数据接服务，实时推送
到一，将数据变成生力，项目实现目如下。
一、用画像封装
（1） MySQL（关数据库）数据平台（Hive、HBase、

Elasticsearch ）
包础与分知识，实现用特征全貌刻画。
（2）种封装角度
分用别、内容、务景进行封装。
二、接数据实时推送
实现用画像数据实时更新至运营及营一视（Web ）

进行展现，并实时馈运营及营题，证数据应用的时效
。
三、展现UI封装
用画像，将推荐应用端进行可视化展现，集
动运营，实现千千面的运营效。
1.4　项目适用范
1）运营决：对运营的关题进行决。
2）运营分：从事市竞分、用需分、务分
工，主要负责用需的现目确定，并运营划评
的实施。
3）运营划：从事运营实施方设计，根据用需生成

创，将创化为略，并制订实施方。
4）数据分：负责数据掘数据分支撑的全 IT支撑

。
5）开：应用上推荐实时调用画像数据。

2　功及
2.1　功
用画像及应用项目包底层数据集存储、画像

建、数据应用3 层，功如下：
2.2　
画像分主要分原始数据计分、计建分
、预分 3 分，具如下：
3　需设计
3.1　用画像
【需说明】用画像是用本属分，对用的
互行为特征进行描，包用登、搜、关、消费方
面数据，对用的疾病诊、行为好变化、消费订单全程的记
，以方展示用的化特征，画像是分的
，是数据掘的始。
【务要】用画像照数据内容分为：用属
、行为属、资消费、疾病诊、用好、客度6
。
【核描】核包分、分、时序列
分、RFM 、推荐、关分。
（1）分
分将看无序的对象进行分组、归，以到更好理解
研究对象的目的。要组内对象相高，组对象相
低。用研究，题可以助分来解决，比如用
度行为、用消费况。
（2）分
分是照种准给用贴，再根据来区分归，分
是事先定义好别，别数不变。根据用的文化观、订单消
费、行为习的不同细分新的别，根据用的不同制定牌
推广略营略，将资对目用集用。
（3）时序列分
时序列分是一种动的数据计方。该方随机程

理论数理计学方，研究随机数据序列从的计规，以用
解决实际题。比如用的期行为分、子归分建
。
（4）RFM
RFM 为动显示一用的全轮廓，R表示用购
的时有远，F表示用时内购的次数，M表示用时内
购的额，加权到RFM 分。
（5）推荐
利用用的一行为，一（协同、LFM、分

、关分）推出用可欢的。推荐讲究准确，提
高用 –医生（医院）–内容（订单、知识）组的匹度，提
升服务质。
（6）关分
关分就是关数据其，存项目集
对象集的频、关、相关，掘
的行为消费关特征。
3.1.1　属
【需说明】属是用的本，这往往是
用册及用时记的，如年龄、别、册时、婚姻
状况、高重。属刻画，到对用初步认知的目
的。
【务要】属分可从数据库直接获取，
分数据（生理）可、疾病方非数据提。
3.1.2　行为属
【需说明】行为属是用用程生的
，包登行为，挂号、诊、协议方、险订单以及平台
击、览、关、搜、评价互行为数据，础计分
解用的行为期、习好、关内容。
【务要】行为属主要订单以及前端的数
据的础计分获取，详细内容及径如下：
3.1.3　疾病诊
【需说明】疾病诊是用挂号、诊、方数据提

取用（用）的疾病及诊相关，并相应提取用搜
、览、关、击互行为相关的疾病诊，数据
分与掘预用疾病诊的务需 .
【务要】疾病诊主要分挂号诊订单以及
疾病关数据，提取用疾病及诊需的务，详细内容
及径如下：
3.1.4　订单消费
【需说明】订单消费是用平台用程进行
购消费的，分务订单及消费数据掘用的消
费特征，以为用提对服务。
【务要】订单消费主要从务分及消费额数据角

度进行计，详细内容及径如下：
3.1.5　用好
【需说明】用好是用平台用的一种好
特征习，重分用常用、诊、就医好、用
加关内容。
【务要】用好从用的终端、诊方、历
就诊医生、就诊医院、用击关分用的
特征，具如下：
3.1.6　客度
【需说明】客度是用用程的
现，主要从用用后的馈况以及用的风险进行
评。
【务要】客度从用历是有诉、主动
评价包差评数据以及子建评风险，具如下：
3.2　接封装
【需说明】用画像接旨解决用画像数据与务
应用的题，用画像应用时化展现，
并且证数据运营及营推荐数据实时更新，数据日更新，免数
据不准确重叉应用。
【功说明】Hive数据库封装用画像宽表，日同步至

MySQL数据库，务及运营可直接访 MySQL数据库数据文件
下的方，访画像数据宽表；也可接以RESTful
API的方实时调用HBase、Elasticsearch 的用、用
数据，实时馈运营及营接触数据题，整画像并更新；
分及应用平台可视化展现推荐库，以实现权限控需。
3.3　UI设计
【需说明】数字化运营及准营的可视化展现，是用
画像数据实现千千面的展现效，运营及营有更好的用
认识，带来更的用服务质。
【功说明】展现UI 包：属、行为属、疾病

诊、订单消费、用好以及客度，同时用
实现更的用分计分，具展现样如下：
（1）画像数据展现
（2）务计
（3）用分力
（4）用特征雷
（5）况表盘
（6）用关及搜疾病词云
3.4　景应用及项目排期
画像上后将应用数据分、BI分、Push推送营、站

内广推送、差化客服、主动呼、短 / 件营
应用景。项目排期与阶关出如下示。
4.运行环
4.1　络与硬件设
络与硬件设包数据库服务：Kafka、MySQL、HDFS、

Hive、HBase、Elasticsearch、Spark，应用服务，络环
。以 3 上的集为，说明机的用。机及环
如下示示。
4.2　软件平台
软件平台包 Web服务环、数据库操、数据掘软件工

具。

Yhhxdzs

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Yhhxdzs

Uploaded by

Copyright:

Available Formats

用 画像：方 论与工程化解决方

本 版由机 工 出版社 2019年出版，电子版由华章分社（北

我曾 知 “数据智 ”专 下面不定期 关 用 画像的文

开始 用 画像的时 我也不知 从 下 ，市面上介

本 助数据 库实现一套用 画像 的方 。从实际工程

1） 层： 画像 的 层，本 首先介 画像数据 库

2） 层：介 整 方 是如 运 来的。本 主要涉及画像

3） 务层：包 的前后端 互以及如 这套 应用

以上几 层面的内容 成 一套完整的用 画像解决方 ，这也

数据的最终目的是 出数据 库，应用到 务 营

我 学习数据 库的时 学 Kimball的《数据 库工具 》，其

本 可以帮助读 用 画像领 成一种 化 ， 面对

1章：主要讲用 画像的 础知识，包 搭建用 画像 需要

2章： 务设定 ，本章 对 景，从常用的用

3章：讲解 相关数据的存储，包 Hive存储、MySQL存

5章：讲解 开 程 常见的数据 斜调 、对小文件的读

7章：画像 化是数据从数据 库 务服务的重要环 ，

9章： 景化介 用 画像实际应用的8 ， 展

· 理：由 岗位 质对 术不是特别熟 ，可重 关

·数据分 师：可以从 度对用 及用 进行分 ，可重

·运营 ：可重 关 2、8、9章的内容， 解画像 涉及

·数据开 ：本 主要站 数据开 的角度对整 画像

谢父 对我一 成 的支持。 谢机 工 出版社华章公司的

数据已 兴 年，其对 互 公司的应用来说已 如 、

下面我 介 这3种 的 的区别：

这 是最为 础也最为常见的 ， 如，对 用

1-4下方虚 为常见的数据 库ETL加工 程，也就是将

的虚 即为用 画像建 的主要环 ，用 画像不是 生

·HBase：存储 上接 实时调用 数据。

·Elasticserch：支持 数据的实时 询分 ，用 存储用

用 数据 Hive 加工完成后， 分 Sqoop同步到

·用 画像 础：需要 解、明确用 画像是 么，包

·数据 ：根据 务 理，包 用 属 、用 行为、

· 数据存储： 相关数据可存储 Hive、MySQL、HBase、

· 程调度： 加工、 计 、同步数据到 务 、

·用 画像 化：为 让用 数据更好 服务 务方，需

建立用 画像前，首先需要明确用 画像服务 的对象，

一 言，用 画像的服务对象包 运营 数据分 。

阶 ：应用 景与数据 径确认

本阶 数据分 掘 需要根据前面明确的需 景进行

数据 库 的 将相关数据落表后，设 定时调度 务，定

· 服务层接 ：为 让画像数据 出数据 库，应用到用

·画像 化：需要 理与 务 、术开 一 对

·开 调 ： 画像的数据 端搭建好 、 提 稳定服

·面 务方推广应用：用 画像最终的价 出 是 务方应

画像开 程 ，还需要开 组织数据分 、运营、客服

涉及数据 库 的表主要包 用 表、 订单表、

用 表（见表1-2）存放有关用 的 种 ，如用 姓名、

日 表（见表1-4）存放用 访 App时 击相关控件的

访 日 表（见表1-5）存放用 访 App的相关 及用 的LBS

搜 日 表（见表1-7）存放用 App端搜 相关的日 数据。

购物 表（见表1-9）记 用 将 加入购物 的数据。

表 设计的重 是要 虑存储 、如 存储（数据分

不同 务 景有不同的设计方 ，这里提 两种设计 ：一是

Hive需要对 入进行全盘 描来 询条件， 用分区可

日 数据，即该表的日期分区 记 着当日的用 行为数

下面详细介 这两种表 的设计方 。

日全 数据表 ， 对应的日期分区 插入 止到当 为止

CREATE TABLE `dw.userprofile_attritube_all `(

这里userid表示用 id，labelweight表示 权重，theme表示

表名末尾 加“_all”的规范化命名 ，可直观看出这是

日 数据表，即 的日期分区 插入当 务运行 生的

CREATE TABLE dw.userprofile_act_feature_append (

用画像：方论与工程化解决方

本版由机工出版社 2019年出版，电子版由华章分社（北

我曾知 “数据智 ”专下面不定期关用画像的文

开始用画像的时我也不知从下，市面上介

本助数据库实现一套用画像的方。从实际工程

1）层：画像的层，本首先介画像数据库

2）层：介整方是如运来的。本主要涉及画像

3）务层：包的前后端互以及如这套应用

以上几层面的内容成一套完整的用画像解决方，这也

数据的最终目的是出数据库，应用到务营

我学习数据库的时学 Kimball的《数据库工具》，其

本可以帮助读用画像领成一种化，面对

1章：主要讲用画像的础知识，包搭建用画像需要

2章：务设定，本章对景，从常用的用

3章：讲解相关数据的存储，包 Hive存储、MySQL存

5章：讲解开程常见的数据斜调、对小文件的读

7章：画像化是数据从数据库务服务的重要环，

9章：景化介用画像实际应用的8 ，展

· 理：由岗位质对术不是特别熟，可重关

·数据分师：可以从度对用及用进行分，可重

·运营：可重关 2、8、9章的内容，解画像涉及

·数据开：本主要站数据开的角度对整画像

谢父对我一成的支持。谢机工出版社华章公司的

数据已兴年，其对互公司的应用来说已如、

下面我介这3种的的区别：

这是最为础也最为常见的，如，对用

1-4下方虚为常见的数据库ETL加工程，也就是将

的虚即为用画像建的主要环，用画像不是生

·HBase：存储上接实时调用数据。

·Elasticserch：支持数据的实时询分，用存储用

用数据 Hive 加工完成后，分 Sqoop同步到

·用画像础：需要解、明确用画像是么，包

·数据：根据务理，包用属、用行为、

· 数据存储：相关数据可存储 Hive、MySQL、HBase、

· 程调度：加工、计、同步数据到务、

·用画像化：为让用数据更好服务务方，需

建立用画像前，首先需要明确用画像服务的对象，

一言，用画像的服务对象包运营数据分。

阶：应用景与数据径确认

本阶数据分掘需要根据前面明确的需景进行

数据库的将相关数据落表后，设定时调度务，定

· 服务层接：为让画像数据出数据库，应用到用

·画像化：需要理与务、术开一对

·开调：画像的数据端搭建好、提稳定服

·面务方推广应用：用画像最终的价出是务方应

画像开程，还需要开组织数据分、运营、客服

涉及数据库的表主要包用表、订单表、

用表（见表1-2）存放有关用的种，如用姓名、

日表（见表1-4）存放用访 App时击相关控件的

访日表（见表1-5）存放用访 App的相关及用的LBS

搜日表（见表1-7）存放用 App端搜相关的日数据。

购物表（见表1-9）记用将加入购物的数据。

表设计的重是要虑存储、如存储（数据分

不同务景有不同的设计方，这里提两种设计：一是

Hive需要对入进行全盘描来询条件，用分区可

日数据，即该表的日期分区记着当日的用行为数

下面详细介这两种表的设计方。

日全数据表，对应的日期分区插入止到当为止

这里userid表示用 id，labelweight表示权重，theme表示

表名末尾加“_all”的规范化命名，可直观看出这是

日数据表，即的日期分区插入当务运行生的

表名末尾加“_append”的规范化命名，可直观看出这

用画像表如设计，有一定要的定的，

制定调研卷表，我可以收集用本以及设一

根据收的调研卷，可计数据进一步分用画像特征

建立的用可以分为计、规则机学习

对根据数进行计、分的开相对容易。如，用

从务景的角度出，可以将用归为用属、用

·用属：包用的年龄、别、设号、安装/ 册状

·用行为：包用的消费行为、购后行为、近N日的访、

·风险控制：对用从征风险、用设的风险、平台消费

· 务专用：应用种务上的，如A/B 试、Push

·营景：以景化进行分，根据务需要建一列营

· 细分：识用的常住市、居住、工

本提一种从务景的角度出对进行归的解

· 主题：用刻画属种的，如属、行为

·用度：用刻画该是用一识（userid）

一命名后，护一码表记 id名称、义及

“数据库父”W.H.Inmon 《Building the Data

·面主题：务数据库的数据主要对事务理，务