You are on page 1of 40

PBL Lecture 1

Ting
大纲

• 自我介绍环节
• 数据科学概念知识
• 案例分享 ( 三国演义 + 银行信用卡风险的可视化分析 )
• 讨论题
自我介绍环节
• 请同学们在聊天框中回答以下的问题 (0= 没有 1= 有 )

 本科 / 研究生的所读专业

 是否学习过任何一门的计算机语言 (i.e. R 语言 , Python ), 如果有学过 , 请打出自己认为的程度 ( 基础 ,

中等等 )+ 语言 ?

 是否学习过人工智能 , 机器学习 , 大数据 , 或者深度学习等相关理论知识 (0 or 1)

 是否有过实战经验 , 做过实际的 project 等 ( 0 or 1)


数据科学与数据驱动性决策
• 数据科学

 涉及从数据的自动化分析结果中理解现
象的原理、过程和技巧

• 数据驱动型决策( data-driven decision-


making, DDD )

 是指基于数据分析做出决策,而非仅凭
直觉
• 数据驱动型决策种类

第一种:
从数据中找到“新发现”的决策 (沃尔玛案例)

第二种:
会重复做出的决策,特别是大规模重复的决策 (用户流失案例)

• 数据工程与数据处理

 数据处理过程的许多方面并不属于数据科学

 大数据其实指的是大型数据集,因其过于庞大而无法使

用传统的数据处理系统,所以新的处理技术应运而生》

 大数据经常被用于数据处理
数据科学的能力
 数据中获取有用知识的能力和数据本身,
都应被视作关键的战略性资产

 数据与数据科学能力也需要投资

 数据科学中一项至关重要的技能,就是
把一个数据分析问题分解为若干有现成
工具可用的已知任务
 任务类型
(1) 分类和类概率估计
可以用于估计总体中的每个个体在一(小)组类别里到底属于哪一类。通常这些类都是排他的
在分类任务中,数据挖掘过程会产生一个模型,而这个模型能决定给定个体被归入哪一类
(2) 回归
估计或预测每个个体的某个变量的数值
分类是在预测某事是否会发生,而回归则是在预测某事有多大可能发生
(3) 相似性匹配
基于已知数据识别出相似的个体。它可以直接用于找出相似的实体
(4) 聚类
用于在没有具体目标的情况下,根据相似性将个体归为若干组
(5) 共现分组(又名频繁项集挖掘、关联规则发现和购物篮分析)可以用于根据交易记录找出个体
之间的关联
(6) 画像分析(又名行为描述)
用于描绘个体、群组或总体的典型行为特征
(7) 链路预测
用于预测数据项之间的联系,其方法通常是,假定某链路存在并估计该链路的强度
(8) 数据整理
将大数据集转化为保留了重要信息的较小数据集的过程
(9) 因果模型
帮助理解哪些事件或行为对其他事件产成了实质性的影响
案例
三国演义人物关系分析
• 计算每个人物在每个出现的频次
• 数据读取
热力图 (heatmap)
• 热力图,是一种通过对色块着色来显示数据的统计图表。绘图时,需指定颜色映射的规则。例如,较大的值
由较深的颜色表示,较小的值由较浅的颜色表示;较大的值由偏暖的颜色表示,较小的值由较冷的颜色表示,
等等。

• 从数据结构来划分,热力图一般分为两种。

第一,表格型热力图,也称色块图。它需要 2 个分类字段 +1 个数值字段,分类字段确定 x 、 y 轴,将图表


划分为规整的矩形块。数值字段决定了矩形块的颜色
• 三国演义人物关系分析 - 热力图

第二,非表格型热力图,或者叫平滑的热力图,不
同的是它需要 3 个数值字段,可绘制在平行坐标系
中( 2 个数值字段分别确定 x 、 y 轴, 1 个数值字
段确定着色)
• 人物可视化分析 ( 相关系数可视化 )
• 社交网路可视化
• 人物的重要程度 ( 节点度 )
经典案例 - 银行信用卡风险的可视化案

案例背景
• 为了使银行更好地进行风险管理,判定客户信用等级,使用 Tableau 软件对银行
信用卡数据进行可视化分析,主要分析客户申请信息对信用等级的影响、客户消
费对信用等级的影响、客户拖欠情况对信用等级的影响以及欺诈客户的特征分析

这个案例的主要步骤如下 :
( 1 )建立 Tableau 工作簿,转换字段类型并创建工作表。 ( 2 )制作
柱形图区分客户信用等级,将各等级客户的特征可视化。 ( 3 )制作
箱型图、创建新字段,将客户消费情况对信用等级的影响可视化。
( 4 )制作散点图、添加趋势线,将客户拖欠情况对信用等级的影响可
视化。 ( 5 )对欺诈客户进行特征分析
经典案例 - 银行信用卡风险的可视化案
•例
工具介绍
Tableau 是一款数据分析软件,通过数据的导入,结合数据操作,即可实现对数据的
分析,并生成可视化的图表直接展现出用户想要看到的信息。可以连接到文件、关
系数据库和其他数据源来获取和处理数据。也可以发布和管理数据源,如自动刷新
发布的数据。通过创建柱形图、散点图和箱型图等图表的形式描绘数据的趋势、变
化和密度,以便用户更好地理解和分析数据
经典案例 - 银行信用卡风险的可视化案
• 例
首先,进行数据准备,新建工作表并创建关联

新建工作表
经典案例 - 银行信用卡风险的可视化案

对信用卡持卡客户的特征进行分析,
男性持卡客户占比为 69.74% ,女性持
卡客户占比为 30.26% ,男女比例约
2∶1 ,持卡客户普遍为未婚人群,可以
看出离异人群和丧偶人群的信贷需求
很低,如图 2.2 所示。其中,统计中
的持卡客户以“ 80 后”和“ 90 后”
为主,其中“ 80 后”客户数量最多,
占比高达 42.95% ,“ 90 后”客户占
比为 34.75% 信用卡客户特征
经典案例 - 银行信用卡风险的可视化案
• 例
创建一个新的
组“客户分
类”,将“居
住类型”“职
业类别”“教
育程度”“车
辆情况”“婚
姻状态”五个
维度

客户特征分类
车辆、职业类别对
信用等级的影响
经典案例 - 银行信用卡风险的可视化案

18 ~ 24 岁信用等级情况
经典案例 - 银行信用卡风险的可视化案

职业类型对信用等级的影响
经典案例 - 银行信用卡风险的可视化案

教育程度对信用等级的影响
经典案例 - 银行信用卡风险的可视化案

保险缴纳对信用等级的影响
经典案例 - 银行信用卡风险的可视化案

工作年限与个人收入、信用总评分
经典案例 - 银行信用卡风险的可视化案
例• 不同户籍对应的居住类型和职业类别与信用等级之间的关联
经典案例 - 银行信用卡风险的可视化案
例 信用卡客户户籍特征
经典案例 - 银行信用卡风险的可视化案

信用卡消费和总额度对比
经典案例 - 银行信用卡风险的可视化案

日均消费对信用等级的影响 单笔消费对信用等级的影响
经典案例 - 银行信用卡
风险的可视化案例
消费比例对信用等级的影响
创建一个新的计算字段为消费比例,衡量客户消费占
总收入的比重
创建一个新的计算字段衡量客户消费是否超额消 超额消费对信用等级的影响
费,是否存在信用卡透支

编辑颜色选项卡

将“信用等级”拖入列功能区,将“是否超额消费”拖入行
功能区
经典案例 - 银行信用卡风险的可视化案

客户消费与收入的关系
经典案例 - 银行信用卡风险的可视化案

逾期天数与拖欠总金额对信用等级的影响 消费比例和拖欠比例对信用等级的影响
经典案例 - 银行信用卡风险的可视化案

不同信用等级客户的欺诈情况

居住类型与拖欠情况
经典案例 - 银行信用卡风险的可视化案

收入分组

存在欺诈的客户特征
经典案例 - 银行信用卡风险的可视化案

欺诈客户的年龄与收入分布

欺诈客户细节数据
经典案例 - 银行信用卡风险的可视化案

旋转后的欺诈客户年龄、收入、职业类别分布
经典案例 - 银行信用卡风险的可视化案

工作年限与欺诈情况
讨论题

在大数据时代,企业首先要做的是收集大量数据,但
收集数据并非仅是把收集过来的数据放到硬盘里面那
么简单,更重要的是对数据进行分类,那么为什么数
据分类这么的重要,以及 , 该如何分类或者说我们可
以从哪些维度对数据进行分类

You might also like