如何评估预测模型的表现

在各种类的医学研究中，建立以及验证一个有效的预测模型(prediction model )是很常见的，无论结果变项(outcome )是连续型、二元类别、计数变项或是存活资料，现在皆已有常规的回归分析方法，分别是线性回归、 logistic 回归、 Poisson 回归以及 Cox 比例危险模式(Cox proportional hazard model )。

举例来说，目前已知数个心衰竭病人死亡率的预测模式，例如 MAGGIC或 Seattle Heart Failure Model，假定我们在这些预测模型之下，提出一个或多个生物标记或是一组危险因子，我们想要证实加上这些生物标记 / 危险因子之后，我们的新模式会比原本模式更能预测死亡率。

然而如何评估这些预测模型的表现，目前存在着许多指标，可粗略分为传统指标以及近 15 年内所发展的新指标。本系列文章旨在介绍这些新旧指标各别的涵义以及向读者推荐数篇很值得阅读的相关参考文献。

首先，我们先将这些测量指标分类四大类，分别是(一)整体表现(overall performance )、(二)区别 / 鉴别(discrimination )、(三)校正 / 校准(calibration )以及(四)风险重新分组(reclassification )，以下分别说明之。

一、整体表现(overall performance )

首先是整体表现，有学过线性回归的读者一定知道，当我们要评估多个自变项(2 个以上)对于结果变项的解释能力时，会使用「 R-square 」这个指标，亦即解释力(variance explained )。R²介于 0-1 之间，当R² 很接近 1 时，代表模式所预测的结果变项的值(predicted value )与实际观察值(observed value )所差无几。

但是在医学领域，结果变项往往是二元类别(binary outcome )或是存活资料(survival data or time to event data )，此时可以参考 Nagelkerke’s R² ，此指标可以套用到广义线性模式(generalized linear model )的所有分配与连结函数。Nagelkerke’s R²也可套用到存活资料。另外也可使用 Brier score ， Brier score 等于(预测值－实际值)² ，它的最小值是 0 ，代表完美的模式，问题是没有最大值。因此临床论文会改为使用 scaled Brier score ，于是值就会介于 0-1 之间， 0 表示是一个无讯息的模式(noninformative model )， 1 则是完美模式。

另外也常见 AIC (Akaike information criterion )或 BIC (Bayesian information criterion )，AIC/BIC 同时考虑了模式复杂度(放的自变项数目的多寡)以及残差(不能被模式所解释的部分)，倘若我们欲提议的新模式(例如：旧模式 +1 个新的生物标记 / 危险因子)的 AIC/BIC 小于旧模式，则表示新模式表现优于旧模式。不过特别注意， AIC/BIC 只能用来比较巢套模型(nested model )，例如上述的新模式就是巢套在旧模式之下，也就是新模式必须包含旧模式所有的解释变项。

然而只使用这些「整体表现的指标」是远远不够的，例如新旧模式的 scaled Brier score 分别是 33% 与 30% ， BIC 分别是 3100 与 3200 ，没有一个既定标准让我们评估这样的差异是否够大。更甚者，整体表现的指标没有回答到下述问题：(1 )加入新的生物标记 / 危险因子之后，新模式是否比旧模式更能区分有无发生事件？(2 )新模式是否比旧模式更能预测结果变项 / 事件发生？(3 )新模式是否可以改变治疗决策？为了回答以上三个问题，分别要再采用区别 / 鉴别(discrimination )、校正 / 校准(calibration )以及风险重新分组(reclassification )此三组指标。

二、区别 / 鉴别(discrimination )

区别 / 鉴别的常见指标的有 2 个，首先是最常见的 Receiver Operating Characteristic (ROC )的曲线下面积(Area under the curve, AUC )，而关于 ROC 的介绍与使用限制，类似的文章介绍的比较多，在此不再赘述。

第 2 个指标则是 Discrimination slope ，概念很简单，就是比较实际发生事件者的平均预测机率(或预测值)与实际没有发生事件者的平均预测机率(或预测值)，一个完美模型的 Discrimination slope 最大值是 1 ，不过倘若两个族群的平均预测机率(或预测值)若无明显重叠，就已经表示目前此模式已经非常具有鉴别力了。

上图为 Steyerberg (2010 )的图2A-2B ，盒型图左边是良性肿瘤(没有发生事件)，右边是恶性肿瘤(发生事件)。图 A 是指旧模式，亦即不包括肿瘤标记 LDH 的模式，图 B 是新模式，包括了 LDH 以及其他旧模式的解释变项。由图 A 可知两个族群的预测机率仍有稍微重叠(实线为平均数，两组相减为0.3 )，图 B 显示加上 LDH 之后，两组的预测机率变得比较不重叠， Discrimination slope 稍微较大，变成 0.34 。

然而，AUC (c-statistic or c-index )对于绝对风险的多寡并不敏感，例如对于发生与没有发生事件者的预测机率分别是 1% 与 5% (差 5 倍)以及分别是 10% 与 50% (也是差 5 倍)，对于 c-statistic 而言这两种情况的贡献是一样的。

因此必须再往下询问两个问题，即(1 )新模式是否比旧模式更能预测结果变项 / 事件发生？或新模式的预测是否准确？(2 )在新模式的预测之下，是否可以改变治疗决策(medical decision )？为了回答以上两个问题，分别要再采用校正 / 校准(calibration )以及风险重新分组(reclassification )此两组指标。

三、校正 / 校准(calibration )

Calibration 的定义为：「模式预测值与实际观察值之间的一致性」，换句话说，即经由模式所预测的值(或机率值)是否准确，这在预测模型的研究是非常重要的属性。Calibration 又称作为适合度(goodness-of-fit )，因为它用来衡量该预测模式是否正确估计发生事件的风险。

Calibration 的常用指标分成两类，一个是画图的方式，另一个则是统计检定。首先介绍画图的方式，常见以散布图(scatter )或直条图来呈现，下图是 Han (2016 )的图 1 ，一般常见将预测值等分为十组(decile )， X 轴为预测机率值(譬如 1000 个人当中，预测机率值最低的 100 人的平均预测值)而 Y 轴为实际观察值(譬如 1000 个人当中，预测机率值最低的 100 人的平均观察值)， 45 度线代表预测值恰好等于观察值。点落在线的上方表示预测模式低估(较低的预测值或较低的发生率)，反之则是高估。

然而图形本身并没有检定，此时针对二元类别结果变项与存活资料分别可使用 Hosmer-Lemeshow goodness-of-fit 检定与 Nam-D’Agostino 检定。概念非常直观，对于上述等分的 10 组而言，预测值与观察值(平均机率)乘以该组总人数之后其实就是频率(表示人数多寡)，此时即可使用卡方检定(chi- square )检验预测人数与观察人数的细格是否具有显著差异。

下图是一个很好的例子， (a) 是旧模式，其 Hosmer-Lemeshow test 达到统计显著，表示预测人数与观察人数之间具有差异，亦即预测其实不是非常准确；反之， (b) 是新模式，其 Hosmer-Lemeshow test 没有显著差异，意味其预测相对比较准确。不过要特别注意，根据预测值等分为 10 组虽然是很常见的作法，但其实是很武断且主观的分组方式，最好可以提供各种不同分组方式当成是敏感度分析(sensitivity analysis )，譬如同时提供 5 组、 10 组以及 15 组的数据。

四、风险重新分组(reclassification )

最后为了回答：『在新模式的预测之下，是否可以改变治疗决策(medical decision )？』此问题，我们需要风险重新分组(reclassification )的指标，最主要是 net reclassification improvement (NRI )以及 integrated discrimination improvement (IDI )。

过去常以 Receiver Operating Characteristic (ROC )的曲线下面积(Area under the curve, AUC )作为主要的统计方法以及其限制。

假设已知有个表现良好的生物标记 B (或是一组危险因子，例如 Framingham Risk Score )，此时我们提议(proposed )的生物标记或预测模型(或一组危险因子)为 A ，可能会有以下几种的比较。

• A 的表现比已知的生物标记 B 更好(head to head comparison ) • A+B 的综合表现比 B 单独更好(nested model ) • A 加上 baseline risk score 之后，预测有增值效果(incremental value ) • A 加上 baseline risk score 比 B 加上 baseline risk score (head to head comparison )

因此 Nancy Cook 博士于 2007 年提出风险重新分组(Clinical Risk Reclassification )的概念，而Michael Pencina 于 2008 年在医学统计指标性期刊「 Statistics in Medicine 」正式提出另外两种重要的指标，分别为 net reclassification improvement (NRI )以及 integrated discrimination improvement (IDI )，且正式提出这两个指标的统计检定。

Integrated discrimination improvement (IDI)

首先我们先介绍 IDI ，在 Pencina (2008 )论文中，使用以下公式来代表 IDI 的涵义。p_new,events 指的是实际发生事件者在新模式的预测成为事件者机率(predicted probability of event )，p_old,events 指的是实际发生事件者在旧模式的预测成为事件者机率，p_{new ,nonevents} 指的是实际没有发生事件者在新模式的预测成为事件者机率，p_{old,nonevents} 指的是实际没有发生事件者在旧模式的预测成为事件者机率。

这里指的「新模式」是我们要提议的那个生物标记(或预测模型)的模式，譬如 A+B 比上 B ，如此B 就是「旧模式」。IDI 的概念非常直观，倘若 A 这个生物标记(或预测模型)真的更能有效预测事件发生，那么它应该要能增加实际上发生事件者的预测成为事件者机率，因此p_new,events 减p_old,events 应该要是正数；反之， A 应该也要更能有效预测事件没有发生，因此p_{new,nonevents} 减p_{old,nonevents} 应该要是负数。于是 IDI 也可以下列公式表示：

IDI 可能的最大值是 2 (200％)，一般来说，如果 5-7 ％被会被认为是「实质地」(substantially )提升风险重新分组1 。然而无论是 ROC 或 IDI 都无法一个临床问题，即尽管 A 这个生物标记(或预测模型)更能预测事件的发生(对于发生事件者)及更能预测事件没有发生(对于没有发生事件者)，但都无法直接回答此问题： A 所增加的预测能力若使用在临床上，究竟是否可以改变治疗决策？

为了回答上述问题， Pencina(2008)提出了另外一个指标，即 net reclassification improvement (NRI)

Net reclassification improvement (NRI)

在使用 NRI 之前，必须有个很重要的前提，亦即关于该事件的预测机率已有明确的风险分组。例如根据 Third Adult Treatment Panel(ATP III)将 10年冠心病的风险(10-year risk of coronary heart disease)明确分为 3组： 0%–6%、 6%–20%及 >20%，针对不同风险分组会有不同的治疗决策，例如 0-6%只要保持定期追踪， 6%–20%则是改变生活方式与药物治疗，而 >20%则可能要接受更积极的监测与治疗。

在 Pencina (2008 )的论文中，使用以下公式来说明 NRI 的组成。方程式 4 的p_up,events 表示分母为实际发生事件者，分子为新模式(相较于旧模式)正确增加发生事件者的预测机率，而且是提升了风险分组，例如从 0-6% (旧模式)提升到 6%–20% 或 >20% (新模式)都是属于此类。方程式 5 的p_down,events 表示分母为实际发生事件者，分子为新模式(相较于旧模式)错误减少发生事件者的预测机率，而且是降低了风险分组，例如 6%–20% 或 > 20% (旧模式)反而变成 0-6% (新模式)都是属于此类。我们当然希望p_up,events越高越好(最大值是 100% )，而p_down,events 越低越好(最小值是 0% )。

方程式 6 的p_up,nonevents 表示分母为实际没有发生事件者，分子为新模式(相较于旧模式)错误增加没有发生事件者的预测机率，而且是上升了风险分组，例如 0-6% (旧模式)变成 6%–20% 或 >20% (新模式)都是属于此类。方程式 7 的p_{down,nonevents} 表示分母为实际没有发生事件者，分子为新模式(相较于旧模式)正确减少没有发生事件者的预测机率，而且是降低了风险分组，例如 6%–20% 或 >20% (旧模式)变成 0-6% (新模式)都是属于此类。我们当然希望p_{down,nonevents}越高越好(最大值是100% )，而p_up,nonevents 越低越好(最小值是 0% )。

而整体 NRI 就等于(p_up,events －p_down,events)－(p_up,nonevents －p_{down,nonevents})，因此可知整体 NRI 的最大值也是 2 (200% )。除了整体 NRI 之外，也可分别计算发生事件者的 NRI_event 以及没有发生事件者的 NRI_nonevent。追求高的 NRI_event 是为了透过所增加的正确风险分类，更能早期积极治疗可能会发生事件的病人，而追求高的 NRI_nonevent 是为了透过所降低的正确风险分类，能避免对不会发生事件的病人做太积极或侵入性的治疗，也可减少医疗浪费。

因此未来读者若进行预测模式的研究，可参考这一系列文章，分别报告这四大类的各种指标，以让读者更能充分地从各个面向评读结果。

参考文献

Alba AC, Agoritsas T, Walsh Met al. Discrimination and calibration of clinical prediction models: Users’ guides to the medical literature. Jama 2017; 318:1377-1384.
Han K, Song K, Choi BW. How to develop, validate, and compare clinical prediction models involving radiological parameters: study design and statistical methods. Korean journal of radiology 2016; 17:339-350.
McGeechan K, Macaskill P, Irwig L, Liew G, Wong TY. Assessing new biomarkers and predictive models for use in clinical practice: a clinician’s guide. Archives of Internal Medicine 2008; 168:2304-2310.
Steyerberg EW, Vickers AJ, Cook NRet al. Assessing the performance of prediction models: a framework for some traditional and novel measures. Epidemiology (Cambridge, Mass) 2010; 21:128.
McGeechan K, Macaskill P, Irwig L, Liew G, Wong TY. Assessing new biomarkers and predictive models for use in clinical practice: a clinician’s guide. Archives of Internal Medicine 2008; 168:2304-2310.
Cook NR. Use and misuse of the receiver operating characteristic curve in risk prediction. Circulation 2007; 115:928-935.
Pencina MJ, D’Agostino Sr RB, D’Agostino Jr RB, Vasan RS. Evaluating the added predictive ability of a new marker: from area under the ROC curve to reclassification and beyond. Statistics in medicine 2008; 27:157- 172.

via：晨晰部落格新站

文章目录