循证医学奠基人David Sackett等人将临床证据定义为“以患者为研究对象的各种临床研究(包括防治措施、诊断、病因、预后、经济学研究与评价)所得到的结果和结论”。
在医学研究中,我们会面对浩瀚如海的证据资料,如何利用已确立的证据分级和推荐强度标准来评价证据,就成了我们所面临的问题。证据分级与推荐强度的发展主要经历了三个阶段,目前存在众多组织和机构的证据分级及推荐强度系统,今天我们就选几个有代表性的来讲讲。
一、 第一阶段是以随机对照试验为最高质量证据,单纯考虑试验设计。最具代表性的是1979年加拿大卫生部成立的定期体检工作组(CTFPHE)制定的CTFPHE分级标准。
表1 1979年CTFPHE分级标准
定义 | |
证据级别 | |
I | 至少一项设计良好的随机对照试验 |
II-1 | 设计良好的队列或病例对照研究,尤其来自多个中心或研究组 |
II-2 | 比较了不同时间、地点的研究证据,无论有无干预措施;或重大结果的非对照研究 |
III | 基于临床研究、描述性研究或专家委员会的报告,或权威专家的意见 |
推荐级别 | |
A | 定期体检中支持考虑该疾病的证据充分 |
B | 定期体检中支持考虑该疾病的证据尚可 |
C | 定期体检中支持考虑该疾病的证据缺乏 |
D | 定期体检中不考虑该疾病的证据尚可 |
E | 定期体检中不考虑该疾病的证据充分 |
二、第二阶段是以系统评价/meta分析作为最高级别证据,主要代表有2001年美国纽约州立大学医学中心推出的“证据金字塔”和2001年英国牛津大学循证医学中心推出的标准。
证据金字塔:
表2 2001牛津证据分级与推荐强度(治疗部分)
证据级别 | 推荐强度 | 定义 |
1a | A | 同质RCT的系统评价 |
1b | 单个RCT (可信区间窄) | |
1c | 全或无病案系列 | |
2a | B | 同质队列研究的系统评价 |
2b | 单个队列研究 (包括低质量RCT,如随访率<80%) | |
2c | 结果研究,生态学研究 | |
3a | 同质病例对照研究的系统评价 | |
3b | 单个病例对照 | |
4 | C | 病例系列研究(包括低质量队列和病例对照研究) |
5 | D | 基于经验未经严格论证的专家意见 |
三、第三个阶段是2004年,包括WHO 在内19 个国家和国际组织共同成立了GRADE 工作组正式推出证据质量和推荐强度分级系统(grading recommendations assessment,development and evaluation,GRADE)。由于GRADE方法更加科学合理、过程透明、适用性强,目前已被包括WHO在内的60多个国际组织、协会采纳,成为证据分级与推荐发展史上的里程碑事件。
表3 GRADE证据质量与推荐强度分级
具体描述 | |
质量等级 | |
高(A) | 我们非常确信真实的效应值接近效应估计值 |
中(B) | 对效应估计值我们有中等程度的信心:真实值有可能接近估计值,但仍存在二者大不相同的可能性 |
低(C) | 我们对效应估计值的确信程度有限:真实值可能与估计值大不相同 |
极低(D) | 我们对效应估计值几乎没有信心:真实值很可能与估计值大不相同 |
推荐强度 | |
强(1) | 明确显示干预措施利大于弊或弊大于利 |
弱(2) | 利弊不确定或无论质量高低的证据均显示利弊相当 |
四、大家是不是觉得很奇怪怎么上面讲到的和我们在各种指南中看到的都不一样呢?目前临床研究证据等级评价的标准和方法,全球并没有统一,各个指南之间,使用的评价方法都可能不一样,临床指南一般都会先定义证据级别和推荐强度。
如我们常见的美国心脑血管疾病常用的指南中的证据分级及推荐强度:
英文版
证据分级和推荐强度可以帮助我们在海量证据中来寻找我们所需要的高质量的证据,也是我们医疗决策和临床实践的重要参考。
看了这么多,你是不是也有不少收获了呢。
专栏:研究设计院
期数:第2期
总期数:第10期
作者:丹顶鹤
来源:微信订阅号临床研究+