模型解释 guandata

可解释机器学习原理及应用
字节 2021.3
Agenda
• 何为可解释机器学习 (10 min) 熟悉

• 技术实现 (15 min)
• 可解释模型
• 模型无关方法定位
• 基于样本方法
• 应用案例 (20 min)
实战理论
陌生
为何需要可解释机器学习
• 不同的机器学习场景
• 推荐系统
• OCR
• 需求预测
• 信用评级系统
• 医学诊断系统
• 不仅输出预测值，同时输出
预测背后的原因
• 模型输出的影响重大，例如安全方面考量
• 开发模型中便于debug
• 模型作为知识的来源
• 规避模型的bias
• 提升用户接受度
• 审计需求 (ECOA, FCRA, etc.)
方法分类
• 内在解释与事后解释
• 模型特定方法与模型无关方法
• 局部解释与全局
内在解释性模型
• Linear regression
• Logistic regression
• Decision tree
内在解释性模型
• RuleFit
• skope-rules
• Naïve Bayers
• kNN
更多内在解释性模型
• EBM
• Monotonically constrained GBMs
• Scalable Bayesian rule lists
• SLIMs
• GAMxNN
• TFT(timeseries)
•…
Post-hoc 特定模型解释
• 利用神经网络的特性进行解释
• Gradients
• Activation maximization
Grad-CAM
Post-hoc 模型无关方法
• Partial Dependency Plots

• M-Plots
• ALE Plots
• ICE
• H-statistics
• Permutation Importance
• LOCO
• Global surrogate
• LIME
• Shapley
PDP
LIME
LIME
Shapley
Shap
基于样本的方法
• 选取特定的样本来解释模型/训练数据分布
• 方法分类:
• Counterfactual explanations
• Prototypes
• kNN model
• Influential instances
• Adversarial examples
反事实解释
• 模型拒绝了我的贷款申请，我需要做哪些改变，可以在下一次通过申请？
• 通过对特征做最小量的改变，达到改变模型预测输出的目的。这些改变
的样本即为反事实样本。
原型样本解释
• Prototype样本指的是数据中具有代表性的样本
• 反之不具有代表性的样本被称为criticism样本，类似于outlier
• 能够帮助我们发现数据及模型中的弱点
影响力样本
解释方法对比
方法选择
什么是好的解释
• 包含对比的解释
• 因素不要过多，1-3个比较合适
• 考虑解释的受众群体
• 重点关注异常情况
• 符合常识，能够“泛化”
什么是好的解释
模型解释debug实战
• 如何优化机器学习模型？
模型解释debug实战
• 全局模型解释，发现整体性的问题，例如特征代码bug，数据分布异常等。
可以类比train valid误差来评估模型问题。
• 局部预测解释，在误差分析过程中可以反复应用，发现模型，数据相关
问题，并更好地结合先验知识对任务进行调优改进和效果验证。
降维+模型压缩
寻找模型问题
寻找模型问题
寻找模型问题
寻找模型问题
Better Feature Importance
特征交互
寻找leak特征
• 二分类问题，在进行一波特征工程后，auc从0.7x上升到了0.9x
• 观察feature importance，top feature并没有明显变化？
• 选择样本进行模型对比，false negative -> true positive，观察shap

value
回归误差分析
• 模型top误差，进行误差归类，例如top高估，top低估，业务分组
• 在类别基础上，分析组内shap value，诊断具体特征
• Top高估，寻找正向影响最大的特征
• Top低估，寻找负向影响最大的特征
• 寻找组内与组外特征影响差值最大的部分
分类误差分析
• 关注得分最高的false positive，得分最低的false negative，决策边界附

近的样本
• Shap, LIME等特征贡献度分析
• 使用ProtoDash技术寻找prototype样本，诊断特征区分度问题
• 使用counterfactual样本诊断数据问题
分类误差分析
分类误差分析
业务解释
• 根据不同需求来构建模型
• 用户复购模型：
• 模型一：能够准确预测出哪些用户会进行复购（accuracy）
• 模型二：能够告知使用者，哪些特性组合与复购行为是高度相关的（global）
• 模型三：能够告知使用者，为什么模型认为某个用户会进行复购（local）
• 挑战：
• 相关性而非因果性
• 特征构建考量
• 预测全流程的解释
• 对业务场景的定制开发
• Actionable insights
业界产品及应用
• H2O.ai
• SageMaker Clarify
• Fiddler
• Truera
• 应用场景
• 模型开发
• 模型评估
• 模型监控
Big Picture
Thanks! Questions?
• We are hiring!
• 欢迎加入观远数据算法团队，一起升级打怪！
• 微信：zijie0
• E-mail: yzhou@guandata.com
观远AI+BI 一站式智能数据运营平台
微信公众号申请试用
Tel: 400-880-0750
Email: hello@guandata.com
Web: www.guandata.com

模型解释 guandata

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

模型解释 guandata

Uploaded by

Copyright:

Available Formats

可解释机器学习原理及应用

• 何为可解释机器学习 (10 min) 熟悉

• Partial Dependency Plots

• 选择样本进行模型对比，false negative -> true positive，观察shap

• 关注得分最高的false positive，得分最低的false negative，决策边界附

You might also like