You are on page 1of 3

• 14 • 中国循证心血管医学杂志2019年1月第11卷第1期 Chin J Evid Based Cardiovasc Med,January,2019,Vol.11,No.

• 循证研究与临床转化·方法学 •

临床预测模型:模型的建立
谷鸿秋1,王俊峰2,章仲恒3,周支瑞4

【摘要】建立临床预测模型是一项复杂的系统工程。本文将临床预测模型建立的全过程归纳总结为
确立研究问题、选择数据来源、筛选预测变量、处理预测变量、拟合预测模型、评估预测模型、呈现预
测模型以及报告研究结果8个步骤,并将其中的概念及重要原则做一系统介绍。
【关键词】临床预测模型;模型的建立;模型的拟合;预测准确度
【中图分类号】R4
【文献标志码】A 开放科学(源服务)标识码(OSID)
Clinical Prediction Models: Model Development Gu Hongqiu*, Wang Junfeng, Zhang Zhongheng, Zhou
Zhirui. *
China National Clinical Research Center for Neurological Diseases, Beijing, 100050, China.Beijing
Tiantan Hospital, Capital Medical University, Beijing, 100050, China.
Corresponding author: Gu Hongqiu, E-mail: guhongqiu@yeah.net
[Abstract] Clinical prediction modeling is a complex process. We summarized the process into eight logically distinct
steps, including identification of research question, dataset selection, screening of predictors, coding of predictors, model
generation, model evaluation, model presentation and results reporting, and described the essential concepts and principles.
[Key words] Clinical prediction model; Model development; Model fitting; Prediction accuracy

随着精准医学时代的到来,临床预测模型在 不同的临床预测模型问题适合用不同的研究
医疗诊断治疗决策、患者预后管理及公共卫生资 设计数据来回答。对于诊断类问题,其预测因子
源配置等方面的应用越来越多,其价值也愈发重 与结局均在同一时点或很短的时间内,适合采用
要。建立临床预测模型是一项复杂的系统工程, 横断面研究数据构建诊断模型;对于预后类问
涉及研究问题、数据集、变量、模型以及结果报 题,其预测因子与结局有纵向的时间逻辑,适合
告诸多环节,尽管有众多文献讨论过其中的方法 采用队列研究数据拟合预后模型。随机对照临床
学问题[1-5],《个体预后与诊断的多变量预测模型 试验可视为入选更为严格前瞻性队列,因此也可
透明报告》(TRIPOD)研究组也给出了报告规 用于建立预后模型,但在外推性受限。回顾性的
范 [6],但仍有很多临床预测模型在方法学上存在 队列研究因其预测因子与结局的数据并非系统性
缺陷。在本系列文章开篇文章的基础上 [7],本文 的收集,导致信息偏倚,不推荐用其建立预后模
将临床预测模型建立的全过程归纳总结为8个步 型。传统的病例对照研究不适合建立预测模型,
骤,并将其中的重要概念及原则做一系统介绍。 不过剿式病例对照或者病例队列研究在罕见结局
1 确立研究问题 或者预测因子测量昂贵的研究中是经济、可行的
方案。此外,随着计算机信息技术的快速发展,
从统计技术的角度来说,临床预测模型是临
疾病注册数据库和电子病历资料也成为构建预测
床研究中比较高级的研究类型,但并非所有的问
模型的重要数据来源[8]。
题都适合用临床预模型来回答。例如,干预/暴露
措施的效应估计与比较则适合用t检验/方差分析, 3 筛选预测变量
卡方检验,Log-rank检验等传统的统计学假设检验 临床预测模型中变量的筛选有三种策略:①
或者校正模型来回答。临床预测模型则适合回答 基于文献报道;②基于统计方法;③基于医学认
疾病的诊断或预后相关问题,特别是预测因子的 识。这三种策略并非孤立,通常在筛选模型变量
组合如何准确的估计患病或事件发生的概率。 时会同时结合这三种策略,或者在不同的筛选阶
2 选择数据来源 段应用不同的策略。建立预测模型前,研究者应
该系统检索文献,收集整理已报道的预测因子作
基金项目:首都医科大学附属北京天坛医院青年基金
为备选预测因子。而后,利用统计方法,并结合
(2016-YQN-07)
作者单位:1 100050 北京,国家神经系统疾病临床医学研究中 医学认识和专家经验,从备选因子中选出最终纳
心,首都医科大学附属北京天坛医院;2 2311 莱顿,莱顿大学医学中心 入模型的预测因子。目前并无广泛认可的最优统
生物医学数据科学系;3 310016 杭州,浙江大学医学院附属邵逸夫医 计方法筛选预测因子,常见的预测因子筛选策略
院急诊科;4 200032 上海,复旦大学附属肿瘤医院放射治疗科
有两种:全模型策略或者筛选模型策略。全模型
通讯作者:谷鸿秋,E-mail:guhongqiu@yeah.net
doi:10.3969/j.issn.1674-4055.2019.01.04 策略是将所有的潜在因子纳入统计模型,且不进
中国循证心血管医学杂志2019年1月第11卷第1期 Chin J Evid Based Cardiovasc Med,January,2019,Vol.11,No.1 • 15 •

行筛选。全模型策略可以避免模型过度拟合以及 适,如J型或U型曲线[15-17]。也有研究者将连续变
预测因子的筛选偏倚 [9],但在实践操作中,全模 量切割后纳入模型中,如果切割后模型的效能丢
型不好定义,研究者的认识、变量测量的质量及 失少,应用的方便性提高,这在后期将预测模型
数据集的样本量等都会影响到最终预测因子变量 推向大众应用时是可取的,但在模型建立初期不
清单的确定,且纳入所有潜在的预测因子也不 推荐采用此策略[1,3]。此外,连续变量变化的尺度
切实际。筛选模型策略是借助统计模型评估预测 通常为1个单位(如1岁),但考虑到实际效应,
因子与结局的关系,并基于一定的准则,比如P 研究者也可尝试其它尺度,比如1个标准差或者
值,AIC或BIC值等来筛选变量。P<0.05是通常 10个单位(如10岁)。
的标准,P<0.1或者更高的界值有可能引入并不 5 拟合预测模型
重要的变量。AIC或BIC是模拟拟合指标,值越低 在模型拟合阶段,研究者需要考虑以下问
说明模型拟合越好[10]。筛选模型策略在具体操作 题:①数据集的划分;②模型形式的选择;③系
时有不同的方法,常见的方法包括向后法、向前 数估计的算法。使用全部的数据拟合模型,建立
法以及逐步法[11]。向后法是从全模型开始逐步剔 预测模型,可以最大程度的利用样本,但这样
除冗余的变量,一旦剔除则不再纳入;向前法则 的模型不稳定,“迁移”能力差,当场景稍有变
是从零开始将变量逐个纳入模型中,一旦纳入则 动,模型的预测能力就有可能发生变化。因此,
不再剔除;逐步法则是向前法与向后法的综合, 拟合预测模型前,研究者通常将数据集划分为训
每次新变量纳入统计模型时,还需评估已纳入的 练集和验证集, 以训练集数据拟合预测模型,以
变量。实践中向后法使用更为普遍,因其首先评 验证集数据评估模型[17]。划分训练与验证数据集
估了全模型效应。此外,一些新的回归技术,如 时,常见的策略包括随机拆分样本、交叉验证
LASSO回归越来越受到研究者的重视[12]。由于预 (Cross-validation)[19]及Bootstrap重抽样[20]。选择
测模型的终极目标是预测,因此,也可直接将模 预测模型时,研究者需考虑结局变量类型及数据
型的预测表现作为变量筛选的准则。 来源。二分类变量结局多适于诊断模型或短期的
筛选预测模型的预测因子虽然有各种统计方 预后模型,常用Logistic回归拟合;事件-时间变
[13]
法 ,但任何预测模型的变量筛选,都不能完全 量多见于长期的预后模型,常用Cox回归拟合。
依赖于统计方法,应该结合专业知识以及专业领 此外,若结局为事件的发生次数(如一年内哮喘
域的经验。此外,在确定预测模型的预测因子 发作次数、心衰患者的住院次数等),可用泊松
时,一些实际的因素,如指标测量的难易度、测 回归拟合,若结局为于连续变量,可用线性回归
量成本、以及应用的难易度等也应考虑在内。 拟合。系数估计时,线性回归中常用最小二乘估
4 处理预测变量 计法,Logistic和Cox回归常用最大似然(ML)估
预测模型中处理变量时首先可能遇到的问题 计法。一些新的估计技术,如shrinkage技术[21]和
就是缺失值。虽说处理缺失值最好的方法是防止 惩罚最大似然估计[22]的运用也日渐普遍。除了传
出现缺失值,但缺失值是任何研究都无法回避的 统的统计方法,一些基于机器学习的算法,如决
问题。当缺失的样本例数大时,直接剔除不仅可 策树、随机森林、神经网络等也在模型拟合中得
能引入选择偏倚,而且导致信息丢失,样本量减 到广泛的应用。
少,把握度下降 [4],因此,缺失值插补,特别是 6 评估预测模型
多重插补是一个重要的弥补方法[14]。缺失值插补 在预测模型建立后,还需要对模型的表现进
可利用患者未缺失的所有变量信息去估计其缺失 行评估,以考察其可重复性及外推性,因此,严
变量最有可能的值。考虑到模型建立后的实际 格的预测模型评估过程包括了内部以及外部数
应用,不建议用“缺失”分类来代替缺失值。 据的验证。当使用和训练集同源的数据集时,
此外,不同的变量类型在纳入模型时,也需做 称之为内部验证。常用的内部验证方法包括随机
不同的处理。分类变量的某些类的频数或者比例 拆分验证、交叉验证以及Bootstrap重抽样, 其中
过低时,应考虑将相近的类合并;连续变量需首 Boostrap重抽样是目前业界最为推崇的内部验证
先考察变量分布,对于严重左偏或右偏的数据, 方法[20]。当使用和训练集不同源的数据集时,称
可以考虑进行相应的变量转换使变量更接近正态 为外部验证。外部验证可采用不同时间、不同地
分布;连续变量通常假定为线性关系纳入模型, 域、不同时间及地域的数据集[23]。
但研究者应该借助限制性立方样条(Restricted 无论是内部验证还是外部验证,均需要
Cubic Splines,RCS)函数或者多项式(Fractional 采用的一定的指标评估模型的表现。区分度
Polynomials,FPs)考察非线性拟合是否更为合 (Discrimination)和校准度(Calibration)是两
• 16 • 中国循证心血管医学杂志2019年1月第11卷第1期 Chin J Evid Based Cardiovasc Med,January,2019,Vol.11,No.1

个最常见的模型评价指标[24]。区分度是指模型区 我们将在后续的文章中做具体介绍。
分是否患有待诊断的疾病(诊断模型)或是否发 参考文献
生预期的事件(预后模型)的能力,也就是将患 [1] Steyerberg EW,Vergouwe Y. Towards better clinical prediction
models: seven steps for development and an ABCD for validation[J].
者按照风险的大小进行排序的能力。最常见的区
Eur Heart J,2014,35(29):1925-31.
分度刻画指标如AUC,或者C统计量。校准度则 [2] Lee YH,Bang H,Kim DJ. How to Establish Clinical Prediction
是评估预测的概率与实际观察到的概率的一致 Models[J]. Endocrinol Metab (Seoul),2016,31(1):38-44.
性,常见的统计指标如Brier得分,其假设检验采 [3] Han K,Song K,Choi BW. How to Develop, Validate, and Compare
Clinical Prediction Models Involving Radiological Parameters:Study
用Hosmer-Lemeshow拟合优度检验,最常见的展
Design and Statistical Methods[J]. Korean J Radiol,2016,17(3):339-50.
现方式是校准度图,即按预测的概率的10等份分 [4] Hendriksen JM,Geersing GJ,Moons KG,et al. Diagnostic and prognostic
人群,以每等份预测概率的均值为X轴,实际事 prediction models[J]. J Thromb Haemost,2013,11(Suppl 1):129-41.
件的比例为Y轴。理想的状况下,校准度图是一 [5] Royston P,Moons KG,Altman DG,et al. Prognosis and prognostic
research:Developing a prognostic model[J]. BMJ,2009,338:b604.
条截距为0,斜率为1的一条直线。此外,也有学
[6] Moons KGM,Altman DG,Reitsma JB,et al. Transparent Reporting of a
者建议用校准截距(Calibration-in-the-large)、 multivariable prediction model for Individual Prognosis Or Diagnosis(TRIPOD):
校准斜率以及决策曲线分析(Decision-curve Explanation and Elaboration[J]. Ann Intern Med,2015,162(1).
analysis)来评价预测模型[1]。有时候,研究者想 [7] 谷鸿秋,周支瑞,章仲恒,等. 临床预测模型:基本概念、应用场景
及研究思路[J].中国循证心血管医学杂志,2018,10(12):1295-8.
要比较新开发的模型对现有模型的改进,或者关
[8] Zhang Z. Big data and clinical research: focusing on the area of
注单个预测因子的预测效能增加值(Incremental critical care medicine in mainland China[J]. Quant Imaging Med
value),此时用AUC值评价并不灵敏,推荐的指 Surg,2014,4(5):426-9.
标是综合区分改善度(IDI)和净重分类改善度 [9] Harrell FE Jr. Regression modeling strategies with applications to
linear models, logistic regression,and survival analysis[M]. New York:
(NRI) [25]。关于模型的验证,我们将在下一篇
Springer,2001.
文章详细讨论,此处仅做简要概念介绍。 [10] Aho K,Derryberry D,Peterson T. Model selection for ecologists: the
7 呈现预测模型 worldviews of AIC and BIC[J]. Ecology,2014,95(3):631-6.
[11] Derksen S,Keselman H. Backward,forward and stepwise automated
为更好的应用临床预测模型,研究者还需考 subset selection algorithms:frequency of obtaining authentic and
虑模型的呈现方式。临床预测模型本质上是预 noise variables[J]. Br J Math Stat Psychol,1992,45(2):265-82.
测因子的数学公式组合,为方便临床应用,研 [12] Tibshirani R. Regression and shrinkage via the LASSO. J R Stat Soc
Ser B,1996;58:267-88.
究者常将不同的预测因子的取值赋予不同的评
[13] Zhang Z. Multiple imputation with multivariate imputation by chained
分,最终的累计得分对应一定的事件概率,此 equation (MICE) package [J]. Ann Transl Med,2016,4(2):30.
即评分-概率对照表, 或依据得分高低划分高危 [14] Sterne JA,White IR,Carlin JB,et al. Multiple imputation for missing
低危人群,以便临床干预治疗。此外,列线图 data in epidemiological and clinical research:potential and pitfalls[J].
BMJ,2009,338:b2393.
(Nomogram)也是一种常见的呈现方式 [26]。若
[15] Royston P,Altman DG,Sauerbrei W. Dichotomizing continuous
预测模型比较复杂,则可以EXCEL工具、网页工 predictors in multiple regression:a bad idea[J]. Stat
具或者手机APP等电子方式进行展示和应用。如 Med,2006,25:127-41.
预测10年ASVCD发生概率的工具(http://tools.acc. [16] Harrell FE. Regression Modeling Strategies:With Applications
to Linear Models,Logistic Regression,and Survival Analysis[M].
org/ASCVD-Risk-Estimator)。
Springer New York,2013.
8 报告研究结果 [17] Royston P,Ambler G,Sauerbrei W. The use of fractional polynomials
to model continuous risk variables in epidemiology[J]. Int J
临床预测模型最有效的分享和推广方式便是
Epidemiol,1999,28(5): 964-74.
在学术期刊上报告其结果。但此前很多临床预测 [18] Steyerberg EW,Harrell FE. Prediction models need appropriate
模型的报告质量堪忧,为此,《个体预后与诊 internal, internal-external, and external validation[J]. J Clin Epidemiol,
断的多变量预测模型透明报告》(TRIPOD)从 2016,69(24)5-7.
[19] Koul A,Becchio C,Cavallo A. Cross-Validation Approaches for
标题和摘要、介绍、方法、结果、讨论以及其
Replicability in Psychology[J]. Front Psychol,2018,9(11)1-7.
它七个方面,提出了22条检查条目,以规范报告 [20] Austin C,Tu J V. Bootstrap Methods for Developing Predictive
内容,提高研究质量 [6]。研究者在撰写研究报告 Models[J]. The American Statistici,2004,58(2): 131-7.
时,可从http://www.tripod-statement.org/获取更详 [21] Copas JB. Regression, prediction and shrinkage. Journal of the Royal
Statistical Society[J]. Series B (Methodological),1983,1:311-54.
细的参考信息。
[22] Moons KG,Donders AR,Steyerberg EW,et al. Penalized maximum
本文系统梳理了临床预测模型建立的全过 likelihood estimation to directly adjust diagnostic and prognostic
程,相关概念以及重要原则,以期为临床研究者 prediction models for overoptimism:a clinical example[J]. J Clin
提供概念性的认知,指导临床预测模型类研究。 Epidemiol,2004,57:1262-70.
(下转23页)
临床预测模型涉及的统计方法和操作流程较多,

You might also like