伞状评价制定方法和步骤
2024-03-16 中国循证医学杂志 中国循证医学杂志 发表于威斯康星
系统评价和Meta分析(systematic reviews and meta-analysis,SRMAs)作为“证据金字塔”中最高等级的证据,在过去20年间发表的数量显著增
系统评价和Meta分析(systematic reviews and meta-analysis,SRMAs)作为“证据金字塔”中最高等级的证据,在过去20年间发表的数量显著增加[1]。研究表明,每天约有11篇SRMAs发表,大量的研究导致卫生政策制定者和卫生服务提供者无法选择最佳证据作出决策[1]。伞状评价(umbrella review)的出现提供了这一问题的解决方法。伞状评价,又称为伞形综述、系统评价的系统评价或综述概述等,是一种更广泛的证据综合方法,其通过明确定义的研究问题、系统的文献检索、严格的质量评价,整合现有SRMAs结局,为卫生政策制定者和卫生服务提供者提供了针对特定研究问题的高质量证据综合体[2]。截止2023年6月,Web of Science数据库中有超过2 500篇伞状评价发表,其中英国医学期刊(British Medical Journal,BMJ)发表17篇,而美国医学会杂志(The Journal of the American Medical Association,JAMA)发表了5篇。伞状评价的研究在近两年发表数目显著增加,为循证证据向实践的转化提供了充足的证据来源。然而,随着此项研究设计的发展,出现了一些方法学挑战,其中主要的挑战为评估系统评价之间主要研究的重叠,可能对定性分析或统计权重产生较大影响而导致误导性结局。国内已发表了两篇关于伞状评价的方法学研究[2-3],但没有详细描述纳入SRMAs重叠的处理,系统评价的更新以及伞状评价数据分析和结果呈现等步骤。因此,本文将对伞状评价的制作方法进行详细介绍,以期为国内学者制作伞状评价提供参考。
1 伞状评价制作流程
伞状评价以系统评价为基础,其制作流程与系统评价基本相似,主要包括确定研究主题、确定纳排标准、文献检索、文献筛选、提取数据、方法学质量评价和证据确信度评估、数据分析和汇报研究结果(图1)。
1.1 选题和纳排标准
选题是否合理、明确和恰当关系到伞状评价制作的必要性和可行性,并影响着伞状评价计划书的制订。在确定研究主题时,通常需考虑以下因素:① 是否对临床实践有指导意义或有助于临床实践指南的制订/修订;② 是否存在高度争议的结论或者没有对潜在偏倚进行系统性研究,例如:针对同一PICOS(participants、interventions、comparison、outcomes和study design)问题的多篇系统评价结论不一致[3];③ 是否有足够数量的SRMAs以及方法学质量和证据确信度是否满足读者需要。基于确定的选题,可以通过PICOS要素或SPIDER(sample、phenomenon of interest、design、evaluation和research type)工具来定义研究问题[4]。
纳排标准的确定取决于研究问题和研究特征,同时纳排标准也是对研究问题最好的回答[5],纳排标准的确定可参考PICOS要素:① 研究特征,包括研究设计、发表日期和地理位置;② 研究人群的特征,包括年龄、性别、是否患病等;③ 暴露和对照的特征以及所使用的研究方法,如数据类型、混杂因素、关联度等。
1.2 文献检索和研究注册
在确定纳排标准后需制定检索策略。检索策略可包含2个部分:① 纳入研究的类型,即应包含系统评价和Meta分析的检索词[3],也可以借鉴SIGN(Scottish Intercollegiate Guidelines Network)网站发布的专业检索词;② 研究主题的所有相关专业词汇。通常采用医学主题词(MeSH)与自由词相结合方式进行检索。
检索策略与数据库是否全面与查全率息息相关,因此,可通过以下方式来提高查全率:① 目标数据库可包括Embase、MEDLINE、CBM、PubMed、CINAHL、WanFang Data、CNKI等生物医学数据库,以及JBI Database of Systematic Reviews and Implementation Reports、Cochrane Database of Systematic Review、Database of Abstracts of Reviews of Effects等系统评价数据库[6];② 补充检索灰色文献,比如追踪纳入SRMAs的参考文献列表,联系作者或通过Google学术等搜索灰色文献[7];③ 关注非英语发表文章以扩大检索范围[8]。
上述步骤完成之后,就可以考虑在注册平台进行注册,目前最常用的综述注册平台包括两个:Cochrane Library和PROSPERO注册平台。
1.3 文献筛选
文献筛选时,评价员首先需去除重复记录,并在根据纳排标准对标题和摘要进行初筛,评价员可通过Covidence或Rayyan等在线软件提高效率[9-10],之后进一步阅读全文以确定文献是否纳入。文献筛选应至少由2名经过严格培训的评价员独立进行交叉核对以降低误排率、提升可靠性,若有分歧可讨论解决,也可以通过与第三位评价员协商确定。
1.4 数据提取
评价员根据预先设计好的数据表,独立地提取纳入研究的相关数据,包括:题目、第一作者、发表年份、总样本量、纳入原始研究数量、研究对象及例数、年龄、性别、种族、地区、合并症、纳入标准和排除标准、采用的Meta分析方法、暴露因素/干预措施、主要测量指标/结果、效应量及其可信区间、异质性、发表偏倚等。同时,数据提取需要考虑以下要点:① 如果一个Meta分析中提及两个结局,应对结局进行分别提取;② 若纳入研究质量不高或数量不足,则应提取一定数量的高质量原始数据进行分析,保证伞状评价的质量[6]。
1.5 方法学质量评价和证据确信度评估
纳入研究的质量高低是伞状评价质量的重要影响因素。在制作伞状评价时,研究人员应从方法学质量和证据确信度两个方面对纳入文献的质量进行评估。
方法学质量通常使用AMSTAR 2(A MeaSurement Tool to Assess systematic Reviews)来评估,该工具由16项条目组成,覆盖纳入研究的关键问题、计划书、文献检索、文献筛选、数据提取、纳入原始研究的基本特征、数据分析和利益冲突等方面,其中包括7个关键领域[11]。通过评估研究与每个标准条目的符合情况可得知系统评价总体质量[12],总体质量可分为“高”(不超过1个非关键领域存在缺陷:系统评价提供了准确和全面的结局汇总)、“中”(超过1个非关键领域存在缺陷:系统评价提供了较为准确和全面的结局汇总)、“低”(1个关键领域加或不加非关键领域存在缺陷:系统评价不能提供准确和全面的结局汇总)或“极低”(超过1个重要领域加或不加非重要领域存在缺陷:系统评价不可能基于获得的数据提供准确和全面的结局汇总)4个等级[13]。
证据确信度可使用推荐的分级、评估、制定与评价(Grade of Recommendations Assessment, Development and Evaluation,GRADE)来评估[14]。GRADE详细描述了影响证据质量的因素并给出了分级的标准,其中GRADE证据质量分级通过效应值、效应估计值、真实值和估计将证据分为高级,中级,低级和极低级证据四个等级。值得注意的是,对于纳入RCT的SRMAs从高级证据开始降级,而纳入观察性研究的SRMAs则从低级证据开始降级。GRADE系统通过五个可能降低质量等级的因素(偏倚风险、不一致性、间接性、不精确性和发表偏倚)和三个可能增加质量等级的因素(剂量-反应关系、大效应量和负偏倚评估每个结局证据体的确信度)判断升高或降低证据确信度。
1.6 数据分析
在伞状评价中,由于纳入SRMAs采用的效应值不同(例如一篇伞状评价中干预措施采用的效应值包括OR、RR、HR等),因此,在比较干预措施的效果时,需对不同类型的效应值进行转化[15]。可采用比值比(odds ratio,OR)作为一个统一的效应值进行转化,不同效应量的转换公式见表1[15]。在一篇关注精神病发生风险与其影响因素的伞状评价中,作者将所有影响因素的效应值转化为OR值,包括发病率比值(incidence rate ratio,IRR)、风险比(risk ratio,RR)和标准化均数差(standardized mean difference,SMD),这使研究者可以直接比较不同影响因素的风险大小并得出结论[16]。若已发表的SRMAs使用了不一致且不恰当的方法(例如在纳入的SRMA中不同类型的原始研究使用相同的分析方法)来合成数据,则需要对纳入SRMAs中的原始研究重新进行数据提取和数据分析[17]。此外,原始研究的数据也可以为伞状评价的结果提供进一步解释[18]。
一篇针对纳入Meta分析的伞状评价数据分析的研究[19],介绍了如何通过R软件中的MetaUmbrella包分析提取的数据集,实现数据格式检查(检查数据是否有错误)和数据分析的自动化(Meta分析中的一般信息,效应量、合并值、可信区间、P值等主要结果,Egger’s检验等附加计算),以及根据各种分类标准对证据进行分层,同时能够进行结果可视化的呈现(总效应量的森林图等)。此种方式可以高效率进行数据分析,但是需要研究人员掌握R软件的应用。
1.6.1 异质性、偏倚评估和敏感性分析
研究间异质性通常使用I2统计量、Q统计量(Cochrane’s Q检验)和H统计量(Kruskal-Wallis H检验)评估[17, 20](表2)。其中H统计量同I2统计量相似,利用自由度矫正了纳入研究数对Q值的影响,其值大小不会随研究数变化而变化,异质性检验结局也更稳健可靠。而Q检验法受纳入研究数量的影响,仅考虑了样本大小的贡献性而没有考虑研究质量的作用[21]。
研究的偏倚风险通常使用纽卡斯尔-渥太华量表(Newcastle-Ottawa scale,NOS)、科克伦工具(Cochrane)或乔安娜布里格斯研究所(JBI)工具评价;研究的发表偏倚使用Egger’s检验衡量(P<0.1认为发表偏倚有统计学意义)[22]。如果SRMAs已报告偏倚则单独列出,并且注意单独提取的数据或者纳入的原始研究(随机临床试验)的设计和实施中的潜在偏倚以及普遍性问题。
通过敏感度分析评估结局的稳定性,依据敏感性分析结果观察证据的排序是否与之前证据分级相同,如果不同重新进行调整[6]。
1.6.2 SRMAs间重叠的处理
系统评价之间的重叠是指针对同一PICO问题的2个及以上的SRMAs包含了相同的原始研究。如果2个及以上的SRMAs评估了相同的暴露和结局并产生较大的重叠,则在伞状评价制作中就有可能纳入有重叠关联的结局或者重复的人群,导致伞状评价最终结局存在偏倚。
处理重叠的方法分如下:① 两篇或者两篇以上的Cochrane Library的文献发生重叠,可以选择最新的发表时间[8]或者原始研究数量最多[6, 23]或者与研究问题相关性最高的文章[24];② 两篇或两篇以上非Cochrane Library文献之间存在高度重叠,使用校正覆盖面积(corrected covered area,CCA)[25]进行计算,通过比较结果进行选择。
CCA作为一种重叠程度的衡量标准[26],通过创建图形交叉表(引文矩阵)计算CCA,提供主要研究重叠的百分比来评价它们之间的重叠程度[25]。研究中可以使用CCA作为初始诊断工具,通过CCA的计算得出更细致的结论。其中重叠度分为四个等级:极高重叠(>15%)、高重叠(11%~15%)、中等重叠(5%~10%)、低重叠(0~5%)[26]。CCA计算公式如下:
CCA以百分比表示,其中N为证据合成中纳入的出版物总数(包括重复的研究)(即引文矩阵中已选方框的数量);r为行数(检索到发布原始研究的数量);c是列数(需要比较的综述的数量)。
CCA是一种有效可以量化两个或更多研究之间的重叠程度的方法,并有助于决定如何处理重叠。表3和表4展示了以3篇SRMAs为例制作引文矩阵和计算CCA的过程;图2显示了使用CCA发现和处理文献重叠的流程图,对系统评价之间的重叠进行了如下管理:
通常CCA≥10%提示高重叠和极高重叠,CCA值较高提示需要进一步对SRMAs质量进行评估,检查纳入研究的综述方法避免文章存在潜在局限性,高重叠按照以下方法进行优先级排序:① 使用AMSTAR 2质量评估工具(维度)评估评分最高,至少被评为中等质量;② 出版时间最近的;③ 提供了综合效应估计或进行了Meta分析;④ 有最多数量的研究或参与者。
通常CCA≤10%[27]提示轻微或者中等重叠,需要保留两篇文章并对结局进行比较选择。低CCA值也可能因为评价员由于不同的主题、纳入标准或者搜索策略而对不同研究进行抽样造成,此时需要依据研究问题纳入研究范围确定,如果研究范围狭窄,则需要进行进一步定性评估以解释低重叠的存在原因[25]。
SRMAs:系统评价和Meta分析;CCA:校正覆盖面积;PICO:患者、干预、对照、结局指标;TOPICS+M:时间、结局指标、人群、干预、环境、研究设计、调节变量[28]。
1.6.3 更新现有系统评价
判断纳入研究是否为最新研究是制作伞状评价的重要前提,针对纳入的系统评价,可以使用Garner等[29]推荐的框架判断是否需要进行全面更新:首先将新发表的研究按样本量从大到小进行分类,通过将新发表研究的效果估计值与原始Meta分析的总体效果估计值依次合并(从最大到最小)来判断研究是否过时,如果新发表的研究导致统计学意义变化或相对效应大小变化超过50%,则认为原始Meta分析已过时需要进行更新。
值得注意的是,未做Meta分析的研究可以被归类为:绝对过时、可能过时和仍然有效。一个SRMA如果被判定为过时或可能过时,则考虑优先进行更新。可以依据被确定需要更新的关键问题的比例或更新特定结论的紧迫性和过时的程度对(高、中或低)研究需要更新的优先地位进行全面评估[30]。如果SRMA判定为有必要更新,则使用原始方法进行更新(框1)。
1.7 结果呈现
伞状评价的报告内容可参考系统评价/Meta分析的相关报告指南例如MOOSE(meta-analysis of observational studies in epidemiology)和PRISMA(preferred reporting items for systematic reviews and meta-analyses)[6]。
结果的呈现可包含以下5个方面:① 报告研究选择的细节,例如研究筛选、检索、纳入和排除的研究数量、排除理由以及文献筛选流程图;② 纳入研究的基本特征,例如作者、发表年份、研究设计类型、研究人群、干预或暴露措施、健康结局、纳入的原始研究和参与者的数量、单个SRMA的结果等;③ 纳入研究的方法学质量和证据确信度评估结果;④ 研究间异质性、发表偏倚、敏感性分析结果等;此外,通过文字和图表相结合,将数据进行可视化呈现能够将研究结果更直观的展示给读者。
在汇报基本特征时需要注意以下几点:① 说明纳入研究是否按照SRMAs指南汇报了结局;如果制作伞状评价中提取了原始研究的数据也需单独列出说明;② 在进行结局汇报时应汇报详尽全面,解释清晰明了。如果有亚组应在结局处汇报每个亚组的结局,并解释亚组间结局的差异和联系;结局汇报需要考虑多个方面的应用,如临床相关性和流行病学相关性等,可在总结后进行综合汇报[6];③ 在报告偏倚时不仅要考虑绝对风险降低、反向因果关系、选择偏差和信息偏差等传统考虑因素,也需要从纳入文献中分析研究问题是否有因果关系,以进行因果关系的判断;④ 汇报可能导致结局的其他原因,并且根据研究所得的结局在研究问题涉及的领域对研究结论进行适当地外推,最好可以为该研究问题未来的研究提供指导意见,最后需要公布研究的资助来源[31]。
2 讨论
伞状评价和SRMAs属性相同,但其证据层次更高[3],与SRMAs相比存在一定优势:第一,综合性:伞状评价将特定研究主题中的所有SRMAs筛选纳入并进行分析和总结,将一个研究问题中的众多综述性结局相互连接起来,给读者展示某一特定研究主题的总体概括并将不同方面相互联系起来从而构成整体的框架,也通过对领域内已发表的研究进行筛选并评估其更新程度,从而为某一研究领域提供方向和指导。第二,高效率:伞状评价是筛选已发表的SRMAs进行综述,减少了对特定研究问题的原始研究进行分析的步骤,从而提高了研究效率。第三,指导性:伞状评价纳入大量的研究进行分析,在制作同时评估了不同研究方法之间的差距,比较了不同干预方法之间的优劣,为之后类似研究进行综述分析时提供方法学参考。
同时伞状评价也存在一定的局限性:第一,伞状评价的有效性和广度受纳入研究的限制,纳入研究质量高则伞状评价质量高,纳入研究涉及领域范围广则伞状评价对于研究问题的覆盖较全面。第二,伞状评价难以纳入全部的特定研究领域的相关研究,不能检索到未发表在目标数据库里的研究、小语种研究等。第三,伞状评价难以修正原始研究和SRMAs中存在的偏倚,制作伞状评价本身也会出现偏倚。第四,伞状评价在制作之前需要评估研究问题的适用性,包括SRMAs更新程度等。第五,伞状评价在纳入SRMAs后不可能逐一回归原始研究中评估正确性,在发现数据有明显问题时需要回归原始数据进行分析评估。第六,SRMAs可能包括不同类型的研究(观察性研究、随机对照研究等),其中可能有研究不符合伞状评价的要求而对伞状评价的制作产生阻碍。
伞状评价的制订仍存在一些挑战:① 现阶段没有专门适用于伞状评价的质量评价工具。如在BMJ中检索伞状评价,多数研究使用AMSTAR 2作为纳入SRMAs方法学质量评价工具,其中往往因为SRMAs选择不合适的研究设计、未评估发表偏倚、未汇报利益冲突、未评估纳入原始研究的质量或者没有使用合适的方法分析数据、科学的研究方法形成结论等原因得到低或者极低评分从而最后产生低质量评价,而大量低质量SRMAs也会造成制作的伞状评价质量降低。② 伞状评价的制作过程易受原始研究和SRMAs的影响。如,观察性研究的SRMAs易产生混杂;伞状评价的证据如果来自一项研究或汇总研究,则可能由于研究证据来源过少导致结果不准确;如果证据来自横断面研究,则这些研究可能难以确定时间关联[27]。因此,未来的研究可继续探讨或开发更适用于伞状评价的方法学质量评价工具,以提高伞状评价制作严谨性。
3 小结
伞状评价的研究范围更广,对某一研究领域的认识更为全面,制作高质量的伞状评价可以将生物医学专业中已发表的证据进行总结概括,提供广泛的高概括综述证据,证据不仅可以用于临床治疗决策方面,也可以用于某特定研究领域的发展评估以及对未来研究方向指导。研究者需要把握伞状评价的制作要点以保证制作过程的严谨性,从而达到制作高质量伞状评价的目的。
原始出处:
程千吉, 杨秋玉, 田晨, 陆瑶, 李颖, 葛龙. 伞状评价制定方法和步骤. 中国循证医学杂志, 2023, 23(12): 1457-1464. doi: 10.7507/1672-2531.202307057
本网站所有内容来源注明为“梅斯医学”或“MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源为“梅斯医学”。其它来源的文章系转载文章,或“梅斯号”自媒体发布的文章,仅系出于传递更多信息之目的,本站仅负责审核内容合规,其内容不代表本站立场,本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言
#系统评价# #系统评价与meta分析# #伞状评价#
64