The BMJ: 多重结局的多元Meta分析和多重治疗的网状Meta分析:原理、概念及实例【研究方法和报告】【2018-12期】

2019年02月12日 英国医学杂志中文版



点击标题下「蓝色微信名」可快速关注



  • 孙至佳 张岩 刘雪晴 译

  • 杨智荣 孙凤 校

  • 北京大学公共卫生学院流行病与卫生统计学系



英国国家健康与临床优选研究所(NICE)等组织需要对现有研究获得的证据进行整合来指导决策,需要确定关于多重疗效及安全性结局的最佳治疗。但是,相关的研究不一定对所有关注的治疗或结局都进行了直接比较,多元Meta分析及网状Meta分析为如何确定最佳治疗这一问题提供了思路,该方法不仅考虑了直接证据,还利用了关联或间接的证据。本文中,研究者描述了这些方法学的重要概念及假设,并阐述关联及间接证据如何产生,同时通过图表说明这些证据在涉及多重结局和多重治疗的真实临床案例中如何使用。



Meta分析是将多个相关研究获得的证据进行定量合并,从而得到研究整体的平均效应。Meta分析是循证医学及临床决策中不可或缺的一部分,可用来指导哪项治疗应在特定的临床条件下被推荐使用。大多数的Meta分析是提取发表的研究结果或从研究者手中直接获得结果进行合并(如治疗效果评估)。然而,不同研究所评价的治疗及结局不一定完全一致,这样会为Meta分析带来一定问题。例如,在一项纳入28项试验的Meta分析中,比较了8种急性心肌梗死后溶栓的治疗方法,这8种治疗方法不可能在每项试验中都同时进行了比较1。实际上,在每个试验中比较了不同的治疗方案,每项治疗最多只涉及8个试验。同理,不同试验可能评价了不尽相同的临床结局。例如,在一项观察黄体酮受体对子宫内膜癌预后作用的Meta分析中,有4项研究同时提供了肿瘤特异性生存及无进展生存结果,但其他研究仅提供了肿瘤特异性生存结果(2项研究)或无进展生存结果(11项研究)2


某些研究若无法提供所关注的特定结局或治疗的直接证据,在进行Meta分析时常常被剔除。但这种做法并不合适,特别是当这些研究在纳入人群、临床环境及目标疾病等方面具有良好代表性的时候。研究需要耗费大量的时间及经费,并涉及患者的参与,简单的将患者信息遗弃的做法会造成科研浪费3-5。多元Meta分析及网状Meta分析的统计模型,分别同时分析多结局及多重治疗,从而解决了这一问题。这样就可以使更多的研究在评价每项结局及比较各种治疗时都得以充分利用。此外,除了利用直接证据,还可以基于其他相关结局的结果来综合评价每项结局,通过整合间接证据来全面比较每项治疗6-7。在充分了解直接证据缺失的情况后,通过观察这些关联或间接的证据,我们可获取缺失的部分信息;统计学上,这个概念有时被称为"借用强度"6,8


临床期刊上发表的多元Meta分析,特别是网状Meta分析正逐渐增多。某综述发现,截至2015年4月,共有456篇网状Meta分析发表,它们所纳入的随机对照试验至少评估了4项不同干预措施9。在456篇研究中,2005年以前仅发表了6篇,而2014年一年发表了103篇,图1中显示了过去10年间论文接收量显著增加。在BMJ上发表的论文数多于其他期刊(28篇,6.1%)。同时,有关网状Meta分析的方法学及指导类文章也在增多,2005年少于5篇,而2012年超过30篇(图1)10


图1 近年来网状Meta分析论文发表情况。(a)显示了2017年Petropoulou等评估的2005—2014年利用网状Meta分析比较至少4种治疗措施的系统性综述应用性论文的发表情况9。其中,2005年以前发表了6篇,截至2015年4月发表了43篇。(b)显示了2016年Efthimiou等评估的2005—2014年,发表的有关网状Meta分析的方法学、指导性及方法学经验性评价的论文情况10。以上内容可参考www.zotero.org/groups/wp4_-_network_meta-analysis。


在此,我们依据以前在BMJ上发表的文章,来解释多元Meta分析及网状Meta分析的重要概念、方法及假设11-13。我们首先描述多元Meta分析在多重结局评价中的效应关联,然后讲述网状Meta分析比较多种干预措施时间接证据的使用。此外,本文重点强调如何使用统计指标(BoSE)来量化关联效应和间接证据所提供额外信息,同时,也涉及重要假设、挑战及最新的拓展,并辅以真实的案例进行解释。


关联效应及多重结局的多元Meta分析

很多临床研究常评价多个结局变量,这本身无可非议。而这些变量间很少相互独立,每个变量或多或少承载着其他变量的信息。如果我们可以使用这些信息,就该去使用。

——Bland 201114


很多临床结局彼此之间具有关联性,例如,高血压患者的收缩压与舒张压,偏头痛患者疼痛程度与恶心,以及肿瘤患者无进展生存与总体生存。这种个体水平上的关联性会导致群体(研究)水平效应间的关联。例如,在降压治疗的随机对照试验中,收缩压及舒张压的治疗效果评价很可能高度关联。同样的,在肿瘤队列研究中,生物标记物的预后效应评价与疾病无进展生存及总体生存之间呈高度关联。关联效应还会在很多其他的情况下发生,比如,当存在多个时间点(纵向数据)15、多个生物标记物与遗传因素之间相互关联16、多个调整了重叠因素的效应估计量17、多个测量准确性的指标(如有关诊断或预测模型)18,以及不同的测量方式(如不同疼痛程度的评分,或来自不同实验室测量技术的生物标记物参考值)19。本文中,我们将这些情况统称为多重相关结局。


正如Bland14提到的,结局间的关联可能含有丰富的信息,在Meta分析中应充分利用。多元Meta分析通过联合分析所有互相关联的结局来完成,它假设各关联结局服从多元正态分布7-20,是标准(单结局)Meta分析方法的推广,关于标准Meta分析的内容已在既往的BMJ上的论文进行过描述12。需要注意的是,该方法并未把多结局整合成单一结局,而是针对每个结局仍产生不同的汇总结果,但结局之间的关联性得到了整合。与分别对每项结局进行单因素Meta分析相比,多元Meta分析有两大优势。第一,在考虑了每个结局之间关联性的情况下,所有结局的数据都可以得到利用;第二,可使未报道所关注结局的研究也纳入其中21。这样就可以使更多研究及证据纳入到分析中,进而产生更精确的结论[更窄的可信区间(CI)]。附件1(见bmj.com)提供了更详尽的技术及软件操作选项22-25。下面,我们通过两个实例来解释这一重要概念。


例1:黄体酮对子宫内膜癌患者肿瘤特异生存的预后效果

在子宫内膜癌案例中,11项研究中(涉及1 412例患者)未提供肿瘤特异生存的预后结果,而是提供了无进展生存结果。在对肿瘤特异生存进行传统的单因素Meta分析时,就会简单地舍弃了这11项研究,但在多元Meta分析中由于无进展生存及肿瘤特异生存有较强的正相关性(约0.8),这11项研究得以保留。这两种方法所得到的汇总结果差异较大,正如图2中显示肿瘤特异生存情况的森林图所示。对肿瘤特异生存的单因素Meta分析仅纳入提供了直接证据的6项研究,汇总风险比(HR)为0.61(95% CI 0.38~1.00;I2=70%),CI刚好跨越无效值。纳入17项研究的多元Meta分析得出的肿瘤特异生存的汇总HR为0.48(95% CI 0.29~0.79),具有较窄的CI,为黄体酮对肿瘤特异生存的预后作用提供了较强的证据。后者分析的结果正如预期那样与无进展生存的预后作用更接近(汇总HR为0.43,95% CI0.26~0.71,结果来自于多元Meta分析)。


图2 黄体酮对子宫内膜癌患者肿瘤特异生存的预后作用的单因素及多元Meta分析汇总结果森林图。肿瘤特异生存及无进展生存的多元Meta分析应用了Rileyd等的方法,通过限定性最大似然估值来处理研究关联的缺失26。单因素及多元Meta分析的异质性相似(I2=70%)。CI:可信区间。


例2:血浆纤维蛋白原浓度作为心血管疾病的危险因素

纤维蛋白研究合作组利用31项研究数据检验血浆纤维蛋白原浓度是否为心血管疾病的独立危险因素17。所有31项研究均可得到部分调整的纤维蛋白原HR值,即调整常见的主要危险因素,包括年龄、吸烟、体质指数(BMI)及血压等。然而,其中仅有14项研究对纤维蛋白原HR值进行了更全面的调整,调整因素还包括胆固醇水平、酒精消耗、甘油三酯水平及糖尿病。对这14项研究中的部分及全面调整估计值绘制散点图(图3),发现两者之间存在很强的正相关(接近1,如近乎完美的线性相关)。


图3 部分调整与"全面"调整效应风险比(纤维蛋白原与心血管疾病发生率的关系)的对数值之间可见强关联(线性相关)。每个圆圈的大小与全面地调整风险比估值对数的精确度呈比例(方差的倒数)(如较大的圆圈代表更精确的研究估计值)。每项研究分别从Cox回归中计算风险比,表示纤维蛋白原水平增加1 g/L时对心血管疾病发生率的影响。


对来自14项研究的直接证据进行标准(单因素)随机效应Meta分析后,得到了汇总的全面调整HR值1.31(95% CI 1.22~1.42;I2=29%),表明纤维蛋白原与心血管疾病的相关性,即纤维蛋白原水平平均每增加1 g/L,心血管疾病的相对风险增加31%。然而,在多元Meta分析中,可整合31项研究中所有部分调整与全面调整的信息,此时就会增加另外17项研究(>70 000例患者),从而对强关联性加以利用(接近1)。其结果与上述的全面调整汇总风险比相等(1.31),但95%CI更精确(1.25~1.38),这主要是因为额外获得的信息(附件2森林图,见bmj.com)。


间接证据与多重治疗的网状Meta分析

现在我们来讲述对多重治疗方式的评价。仅用直接证据来评定某一特定治疗比较(例如治疗A比治疗B)的Meta分析称为成对Meta分析(pairwise Meta-analysis)。当不同试验中的治疗方案不一样时,这种分析方式会大大减少每个Meta分析所包含的试验数目,并且难以正式地比较2种以上的治疗方法。这个问题可通过网状Meta分析解决,它不仅充分利用了间接证据,还可以同时整合所有相关试验22,27-28。例如,在一项评估了3种治疗方法(A、B和C)的网状meta分析中,假设A对B的相对治疗效果(即治疗对照)是主要关注的比较,有的试验会直接比较治疗A与B;而有的试验是比较治疗A与C或比较治疗B与C,这类试验中没有直接比较治疗A与B,不能提供治疗A与B效果比较的直接证据。但治疗A与B比较的间接证据仍可以通过所谓"一致性"假设从这些试验中获得,即无论治疗如何比较,在所有试验中有如下等式:


A与B对比的效应值(treatment contrast)=(A与C比较的效应值)-(B与C比较的效应值)


其中效应值可以是对数相对风险(log RR)、对数比值比(log OR)、对数HR或平均差等。这种关系任何同时研究A、B和C三种治疗的随机试验中都始终成立。然而,当临床和方法学特征(如研究质量、随访时间、患者特点)在每个子集试验(这里指治疗A比B、A比C、B比C试验)中相似时,那么这种关系(平均)在每一子集试验中仍然成立。在这种情况下,治疗A和B的效果不仅可以通过比较治疗A与B试验的直接证据中得到,也可以通过比较仅有治疗A和C的试验和仅有治疗B和C的试验的间接证据中推断出来(图4)。


图4 比较治疗A与B的直接和间接证据的图像表现(改编自Song等201129


根据一致性假设和可获得数据的类型,可有多种网状Meta分析模型的选择。如果每项试验只涉及某2种治疗(即一种治疗比较),那么最简单的方法就是标准的Meta回归分析,它可以对每一种治疗相对于共同参照治疗的效应值进行建模。参照治疗的选择是任意的,对Meta分析的结果没有任何影响。这可以扩展到多元Meta回归,它适用于具有3个或3个以上治疗组的试验(通常称为多臂试验)30-31。为了得到二分类结果,常见的是使用logistic回归来直接对每个治疗组的样本量和事件发生数进行建模,而不是对治疗效果直接建模。类似的,线性回归和泊松回归可用于直接对试验中每个组中的连续结果和发生率进行建模。不管哪种建模方法,都需要保持试验内的随机性和患者的分组30,研究间的异质性需采用随机效应模型来控制12。补充材料1(见bmj.com)给出了网状Meta分析的更多技术细节(和软件选择),之前也有文章对其统计学方面作了更全面的解释30


网状Meta分析所得到的是每个治疗相对于所选参照治疗的汇总效应值。然后根据一致性关系可得到其他比较的结果。例如,如果治疗C在一个二分类结果的网状Meta分析中为参照治疗,那么治疗A和B的汇总log OR,就是治疗A和C的汇总log OR与治疗B和C的汇总log OR之间的差值。我们现在通过一个例子说明一些重要的概念。


例3:急性心肌梗死后8种溶栓剂治疗的比较

这项Meta分析1的目的是评估8种不同的溶栓剂治疗在降低30~35天病死率的相对疗效。为方便起见,这些治疗标记为A至H(治疗全称见图5)。Caldwell等曾在BMJ中发表过包含其中7项治疗的网状Meta分析13,我们的研究进一步扩展了这项工作。


图5 评估8项溶栓剂治疗(标为A~H)对急性心肌梗死患者30~35天病死率影响的28个试验的直接比较网状图。每个点(圆圈)表示不同的治疗方法,其大小与涉及该治疗的试验数量成正比。连接两个点的线的宽度与这2个治疗直接比较的试验数量成正比(该数字显示在线旁)。没有线直接连接的2个点(例如治疗C和D)表明没有试验直接比较2个相应治疗。A:链激酶;B:速效阿替普酶(accelerated altepase);C:阿替普酶;D:链激酶+阿替普酶;E:替奈普酶;F:瑞替普酶;G:尿激酶;H:抗立止血(anti-streptilase)。


这8种治疗方法可形成28对比较,然而试验网络(图5)显示只有13对在至少1项试验中被直接报告,其中试验网络中每个点代表特定治疗,当至少有一个试验直接比较了2个相应治疗时,这2个点才会由线段连接起来。例如,如图可知有8项试验中存在治疗C与A的直接比较,而仅有1项试验中对治疗F与A进行了直接比较。由于每个治疗和每对治疗组之间获得的直接证据数量不同,仅使用标准(单变量)成对Meta分析来比较这8项治疗是存在严重问题的。


因此,通过每个治疗组的患者数和30~35天病死率,我们利用多元随机效应Meta回归模型来进行网状Meta分析可得到从治疗B至H对于治疗A的汇总OR,及其他治疗比较的OR28,31。利用网络中的直接证据和借助一致性假设得到的间接证据,可使这28项试验全部纳入,且8种治疗方法可同时进行比较。图6和补充材料3(见bmj.com)显示参照组的选择不改变结果,有些治疗之间的比较结果受间接证据的影响较大。例如,在包含28项试验的网状Meta分析中,治疗H与B比较的汇总治疗效果(OR 1.19,95%CI 1.06~1.35)基本上与2个试验的标准成对Meta分析不同(汇总OR3.87,95%CI 1.74~8.58)。


图6 对于至少有一个试验涉及的直接比较,扩展的森林图显示了各比较对的网状Meta分析结果。每个正方形表示该研究的比值比估计值,其平方大小与该研究中的患者数成比例,相应的水平线表示可信区间。每个菱形的中心表示来自网状Meta分析的汇总比值比,并且菱形的宽度提供其95%可信区间。BoS表示借用强度统计量,范围从0%到100%。


治疗排序

网状Meta分析有助于通过效果为治疗方法进行排序。这个过程通常,但不总是33需要使用模拟或重复抽样(resampling)方法28,31,34。这些方法的原理都是首先从汇总治疗效果(近似)分布中产生成千上万个样本,然后计算每种治疗效果最佳(或最差)的样本所占的百分比(概率)。图7上图显示每种溶栓剂治疗在所有治疗中按最有效进行排名的可能性,类似地得到第二、第三,一直到效果最差的可能性。图7下图显示在最有效降低30~35天内病死率的治疗方法中,治疗G具有最高概率(51.7%),其次是治疗E(21.5%)和B(18.3%)。


图7 溶栓剂治疗网状Meta分析中每项治疗的排名概率图。(上图)概率尺度图;(下图)累积概率尺度图。


注重概率排名第一可能存在误导性,虽然某种治疗排名第一,但它排名最后的概率也可能很大35,并且相比于其他治疗,它的优势并没有明显的临床价值。在我们的案例中,治疗G成为最有效治疗的概率最高,但治疗G的汇总效果与治疗B和E类似,其差异在临床上可能不太重要。此外,治疗G成为最无效治疗的概率(14.4%)排名第四,反映出虽然汇总效果较大,但CI较宽。相比之下,治疗B、E和F成为最无效治疗的概率较低(接近0%)。因此,一项治疗可能具有最高的可能性排名第一,但实际上缺乏强有力的证据(排除随机误差)证明它比其他可获得的治疗更有效。为了进一步说明这一点,我们在溶栓剂网状里添加一种名为Brexitocin的假想的新药,它不存在直接或间接证据。鉴于缺乏证据,Brexitocin基本上有50%的概率成为最有效的治疗方法,但也有50%的概率成为最无效的治疗方法。


平均排名和累积排名曲线下的面积(SUCRA)有助于解决这个问题。平均排名是每个治疗的平均排名。SUCRA是排名的累积概率曲线下面积(从最有效至最不有效)(图7中下图),它实际上是把平均排名转换成至0和1之间,与之相似的测量指标是P得分33。在溶栓剂网络(此时不包括Brexitocin)中,治疗B和E的平均值排名最高(分别为2.3和2.6),接着是治疗G(3.0)。因此,虽然治疗G排名第一的可能性最高,但根据平均值排名却为第三位。


从关联或间接证据获得的信息如何量化

Copas等(2017的个人通讯)提出,与具有相同试验异质性大小的多元或网状Meta分析相比,仅提供直接证据的标准(单变量)Meta分析相当于从所有相关研究中剔除了100 ×(1-E)%的研究。效率(E)定义为:


E=(基于直接和相关证据的汇总结果的方差)÷(仅基于直接证据的汇总结果的方差)


这里的相关证据是指间接证据或关联证据(或两者皆有),此处汇总结果的方差是指Meta分析的原始测度(通常是log RR、log OR、log HR或平均差)下的方差。例如,E= 0.9表示10%的研究和患者(及结局事件)并没有纳入到标准Meta分析(仅基于直接证据的Meta分析)。


我们将可获得的具有直接证据的研究(即用于进行标准Meta分析的研究)的数量定义为n,通过使用间接证据或关联证据得到的汇总Meta分析结果中获得的信息,可以用额外增加的研究数目来表示,即这些信息的增加相当于多找了几个规模的直接比较试验(参见图8中的等式1),其中每个额外研究的规模与这n个试验的平均规模相当。例如,如果标准单因素Meta分析纳入了9项研究,并且E= 0.9,则使用多元Meta分析的优势相当于多纳入了一项跟这9个研究平均规模相当的研究(参见图8中用于推导的方程2)。


图8 用于推导文中数字的等式。


Jackson等还提出借用强度(BoS)统计量8,适合于多元Meta分析或网状Meta分析的每个汇总结果(参见图8中等式3)。


BoS表示汇总结果的方差因关联或间接证据的引入(或借到)而减少的百分比。BoS可解释为关联证据或间接证据在Meta分析中所占的百分比权重8。例如,在一项网状Meta分析中,BoS为0%表示汇总结果仅基于直接证据,而BoS为100%表示汇总结果完全基于间接证据。Riley等展示了如何推导多参数Meta分析模型中的百分比权重,包括网状和多元Meta分析38


举例应用

在纤维蛋白原的例子中,完全调整后的汇总HRBoS值高达53%,表明关联证据(部分调整后的结果)的比重占汇总结果的53%。可得效率(E)为0.47,使用关联证据等同于从16项额外研究中获得完全调整后的结果(参见图8中推导等式4)。


在孕激素的例子中,肿瘤特异生存的BoS值为33%,表明利用无进展生存的结果,将肿瘤特异生存的汇总log HR的方差降低了33%。可得E值为0.67,多元Meta分析获得的信息可以被认为是从额外3项研究中获得的肿瘤特异生存结果(见图8中推导等式5)。


在溶栓剂Meta分析中,对于每个至少有一个试验提供了直接证据的治疗比较组,它们的BoS值都显示在图6中,其取值通常都较大。例如,治疗H和B比较的BoS值是97.8%,且有2个有直接证据的试验,相当于从额外89个研究获得直接证据,每个额外研究与这2个试验规模相似(见图8中推导等式6)。因为治疗E对比B没有间接证据,故BoS值是0%。若比较对没有在图6中显示,例如治疗C对比B,代表BoS值为100%,因为没有直接证据。补充材料3显示每项研究的权重百分比(贡献度)。


多元Meta分析或网状Meta分析的挑战及假设

本文的3个例子展示了多元和网状Meta分析的潜在价值,其他价值在其他文章中也有讨论15,20,39。然而,这些方法存在局限性。


多元Meta分析的价值可能很小

多元和单变量模型通常给出相似的点估计,虽然多元模型可能给出更加精确的估计。然而,增加的精确性会对系统评价的结论有多大程度的改变,目前尚不清楚。

——Trikalinos等201440


基于经验证据40,这一观点在纤维蛋白原的实例中可能体现不出。尽管多元Meta分析在精确性上有相当大的提升(BoS=53%),但不管是单变量还是多元Meta分析,均显示纤维蛋白原为心血管疾病的危险因素,结论没有不同。也有学者认为,知道这结论本身就很有用。


BoSE很大时,多结局的多元Meta分析可能显得很重要,常发生在以下情况中:


  • 有很大比例的研究没有涉及所关注的结局;


  • 研究没有报告所关注的结局,但报告了其他结局;


  • 研究内或研究间,结局的相关性很大(例如,>0.5或<-0.5)。


根据我们的经验,在多种治疗方法的网状Meta分析中,BoSE通常很大,也就是说,相比于通过结局的关联性而获得的信息,通过一致性假设而得到关于多重治疗的信息会更多。多结局的多元Meta分析最适用一组高度关联的结局,否则BoSE会很小。因此在分析之前需要应用临床判断和统计学知识等对结局进行鉴定和筛选,以避免对不同结局组合的数据挖掘。多结局的多元Meta分析同样适用于存在结局缺失(在研究水平)的情况,经验表明,某一结局的BoS近似由缺失数据占该结局的比例决定。例如,在纤维蛋白原的例子中,缺少完全调整结局的试验占所有试验的55%(=100%×17/31),即在完全调整过的合并结果中BoS可高达55%,因此多元的方法是有价值的。如前所述,因为部分调整和完全调整的效果几乎完全相关,所以实际的BoS是53%,和55%非常接近。相比之下,在数据完整或结局缺失的比例很小的情况下,BoS(以及多元Meta分析)就不太重要了。此外,多元Meta分析无法处理未对所关注的结局作任何报告的试验。因此,尽管多元Meta分析能够减少在已发表试验中选择性报告结局的影响,但不能减少未发表文献在全部试验中的影响(发表偏倚)。


如果想要对关联结局之间进行正式比较(例如,评估治疗效果在收缩压和舒张压上所显示出的差异),那么考虑到结局之间的相关性,不管有多少缺失数据,这一比较都应该在一个多元框架中完成,从而避免错误的CIP41。类似地,即使所有的试验都对所有治疗方法进行比较,网状Meta分析也是可取的,因为评估和比较每种治疗的效果,需要在单独一次分析中进行。


模型的设定和估计很重要

即使预期的BoS很大,仍可能存在一些挑战20。多元和网状Meta分析模型常常很复杂,而要达到收敛(也就是可靠的参数估计)可能需要进行模型的简化(如,对每一比较对均设置相等的研究方差、多元正态假设),这可能会引起一些争议20,42-43。举例而言,在对多结局的多元Meta分析中,随着结局数量(即未知参数)的增加,收敛和估计相关的问题也随之增加,所以对于超过2到3个结局的应用是罕见的。特别地,除非可以获得个人数据44,否则要获取和估计结局之间的相关性会存在问题45-46;贝叶斯统计或许可以解决这一问题,其利用对未知参数的先验分布来引入外部信息47-49


前提假设的意义

但是借力造成了弱点。它使得借力者(borrower)变得软弱,因为在完成事情的同时也增加了借力者对外部因素的依赖。

——Covey 200850


这句话与一个高效领导者所应具备的品质有关,但也同样适用于此。多元和网状Meta分析的好处取决于缺失的研究结果是否为随机缺失51。我们假设在一些试验中所观察到的关系可以推广到其他没有观察到的试验中。举例而言,在多结局的多元Meta分析中,2个结局之间可观察到的线性关联(相关)(研究内或研究间)可推广到那些只有其中一个结局的研究中。这种关系也会被用来证明替代结局的合理性52,但常常受到批评和质疑53。若结果的缺失是因为选择性结果报告54或选择性分析55而导致的,此时就会产生非随机缺失。在这种情况下,多元分析方法仍可以减少选择性报告的偏倚,但不能完全消除。


在多种治疗方法比较的网状Meta分析中,缺失假设(the missingness assumption)也被称为可传递性(transitivity)56-57;不管是在可以直接观察到的试验中,还是在未能观察到的试验中,3种或多种治疗之间的相对效果在所有试验中都是相同的,即视为一致性假设成立。当直接与间接的证据不一致时,这就是所谓的不一致性(不连贯)。Veroniki等最近的综述发现总体上大约有1/8的网状Meta分析显示出不一致性58,和之前的一篇综述结果相似29


如何检验直接和间接证据之间的不一致性?

治疗效应修饰因子是指影响治疗效果大小的试验方法学或临床特征,这可能包括随访时间长短、结局定义、研究质量(偏倚风险)、分析和报告标准(包括选择性报告风险)以及患者水平的特征29,59-61。当这些效应修饰因子在直接证据或间接证据的试验集中存在系统性差异时,就造成了真正的不一致性。因此,在进行网状Meta分析之前,重要的是仅选择与临床患者相关的试验,然后找出试验之间的任何系统性差异。举例来说,在溶栓剂证据网络中,如果按照潜在的效应修饰因子,治疗C与A比较和治疗H与A比较的试验是否与治疗H与C比较的试验存在系统性差异62?如果存在的话,很可能会出现不一致的问题,因此最好避免使用网状Meta分析的方法。


在进行Meta分析之前,很难估计出不一致的可能性。因此,在进行任何网状Meta分析之后都应该对不一致的可能性进行统计学检验,虽然这些检验通常都没有进行63。在有直接和间接证据的每一种治疗对比中,都可以进行一致性假设的检验(被视为网络图中的闭环)58,64-65:通过分离间接和直接证据的方法[有时称为节点拆分(node splitting)或边界拆分(side splitting)],可分别估计来自直接和间接证据的效应值并进行比较。也可以使用设计-干预交互模型31,66,对整个网络进行一致性假设的检验,其允许对不一致进行总体显著性检验。如果找到不一致的证据,应该进一步探索不一致来源——例如,不一致是否由不同设计的特定研究或者具有较高偏倚风险的研究引起56。进而,网状Meta分析模型可以纳入适当的解释性变量,或限制在某些特定研究中开展62。如果不一致性仍然无法解释,则可以在模型中引入均值为0的随机效应项来表示不一致性,从而得到调整未解释的不一致性后的汇总效应值67-69。现在也有其他不一致性的建模方法,我们预计未来几年这一领域会有进一步发展。然而,由于检验效能较低,通常情况下难以检测到真正的不一致70


在溶栓剂的例子中,除了治疗H与B比较的试验,分割间接和直接证据的方法并没有发现显著的不一致性,在图6中可见研究22、23以及在标题"H v B"下的所有研究在H比B效应值上的差别。然而,当我们应用设计-干预交互模型时,并没有发现整体不一致性的证据。如果治疗方法H与B比较的研究在设计上与其他研究不同,那么从网络中排除它们可能是合理的,否则总体不一致模型(包含不一致项作为随机效应)可以给出最佳的治疗比较结果。


最新进展和热点话题

合并多种治疗方法和多重结局

之前的例子要么考虑多种结局,要么考虑多重治疗方法。然而,人们对于将两者相结合的兴趣正日益增加,这样可以帮助确定关于多个临床相关结局的最佳治疗方法71-76。这种方法是可以实现的,但由于模型复杂性的增加,因此具有一定的挑战性。例如,Efthimiou等72对68项研究进行了网状Meta分析,比较了13种活性抗躁狂药物和安慰剂对急性躁狂症的作用。颇受关注的2个主要结局分别是疗效(定义为从基线到第3周躁狂症状至少减少50%的患者比例)和可接受性(定义为在治疗3周内治疗停药的患者比例)。这些结局很有可能是负相关(因为患者由于缺乏疗效而经常停止治疗),因此作者扩展了网状Meta分析框架,同时分析了这些结局,并调整了两者的相关性(估计约为-0.5)。这一点特别重要,因为68项研究中有19项只提供了两项结局之一的数据。与单独考虑每种结果相比,这种方法在汇总治疗效果会产生更窄的CI,并对某些治疗的相对排名产生影响(补充材料4,见bmj.com)。特别地,在单独考虑结局时,卡马西平在反应方面是最有效的治疗方法,但在调整了相关性后,却降到了第四位。


纳入剂量和分类

标准网状Meta分析不能考虑治疗之间的相似性。当某些治疗表示同种药物的不同剂量时,网状Meta分析可把合理的剂量-反应关系也考虑进来77。类似地,当治疗可以被划分为多个类别时,在网状Meta分析模型中,可允许同一类别中的治疗比在不同类别中的更具有相似的效果78


使用个体参与者数据

使用集合(已发表的)数据的网状Meta分析很方便,但有时候发表的报告不足以达到这一目的,例如,结局指标的定义不同或者研究者感兴趣的是亚组的治疗效果。在这些情况下,收集个体参与者数据可能很有价值79。因此,用个体参与者数据进行网状Meta分析的方法正在涌现60,80-85。一个主要的优点是这些方法可以包含个体水平的协变量,这对于效应修饰因子的协变量来说是很重要的,如果不分析这些协变量就会引起证据网络的不一致性。


真实世界证据的纳入

越来越多的人开始使用来自非随机研究的真实世界证据,以证实随机试验的结果,并增加用于决策的证据。因此,出于以上目的,网状Meta分析方法正在扩展86,Efthimiou等87最近的综述强调,这类分析需要确保不同证据类型之间在每种治疗比较上的兼容性。


累积网状Meta分析

Créquit等88的研究显示,对于晚期非小细胞肺癌竞争性二线治疗的现有系统综述,所涵盖的随机化证据的数量总是不全面,40%以上的治疗方法、对照和试验存在缺失。为了解决这个问题,他们推荐了一种新的模式"通过转换(switching):把一系列集中于特定治疗方法(很多治疗方法未考虑)的标准Meta分析,改成一个涵盖所有治疗方法的单独网状Meta分析;把一个限定在特定时间且相对滞后的标准Meta分析,改成一个一旦新的试验结果可用时就立即进行系统性更新的累积性网状Meta分析。"后者被称为动态累积网状Meta分析,这种方法的各种步骤、优点和挑战值得进一步思考88。类似的概念是适应性Meta分析框架(FAME),它需要对正在进行的试验有清楚的了解,并建议进行实时(timing)更新的Meta分析,以期与新出版物的时间相符89


质量评价和报告

最后,我们鼓励根据Salanti等90的指导方针对网状Meta分析进行质量评价,并且根据PRISMA-NMA指南对结果进行清晰的报告91。根据最近的提议,报告质量可以通过展示各研究所占的百分比权重来提高8,38,进而揭示每项研究对汇总治疗效果的贡献。


结论

多元Meta分析使用关联证据,网状Meta分析使用直接证据的同时还考虑了间接证据,在此我们强调了他们的优势和挑战。表1总结了这两种方法的基本原理、优点及潜在缺陷。核心结局集和数据共享有望减少直接证据缺失的问题61,79,92,但不太可能完全解决。因此,我们期待着多元和网状Meta分析的应用及其方法在未来几年不断进步,以求将间接和直接证据整合在统一的框架中9,93




BMJ 2017;358:j3932





关 注 官 微

    

商 务 合 作

    





收藏 已赞