Рекомендации, основанные на доказательствах: часть I

11.12.2020
17:01
Более 30 лет назад  в лексикон врачей прочно вошло понятие «рекомендации, основанные на доказательствах». Однако методические подходы к составлению рекомендаций, к самому понятию «доказательства» и оценке доказательств существенным образом отличаются. Оценка уровня доказательств основана на методологическом качестве исследований, мета-анализов и систематических обзоров. Согласно данным  Американского агентства по проведению и оценке качества исследований в области здравоохранения (AHRQ), в 2000 году  использовалось  20 систем оценки методологического качества систематических обзоров, 49 систем оценки качества  рандомизированных исследований и 19  обсервационных исследований 1,2.

Должны ли клинические рекомендации быть обязательными для исполнения?

Таким образом, очевидно, что сам тип исследования (например, рандомизированное) не свидетельствует о  его качестве или степени доказательности. В зависимости от используемого методологического подхода  оценки качества исследования  изменяется и  оценочный уровень качества одних и тех же исследований. Кроме оценки уровня   доказательств  применяется такое понятие, как оценка качества доказательств, которое учитывает как тип и  качество исследований/фактических данных, так и:

  • величину лечебного или профилактического эффекта, специфичность, чувствительность/диагностическую точность для методов диагностики;
  • согласованность результатов разных исследований, объем выборки, обобщаемость результатов исследований на популяцию, количество исследований. 

Примеры классификаций уровня доказательности данных, разработанных отдельными организациями

Оксфордский центр доказательной медицины (CEBM,  Великобритания) разработал и применяет шкалу с пятью уровнями доказательности в зависимости от цели оценки (эффект метода лечения, точность диагностического метода, прогноз, стоимость лечения)3 

Таблица 1. Уровни доказательности, используемые в исследованиях при оценке методов лечения/профилактики/этиологии заболеваний/причинения вреда (риски).

Уровень

Лечение, профилактика -польза, риски , нежелательные явления

Прогноз

Диагноз

Диф. диагноз

Экономический анализ, анализ принятия решений

1a

Систематические обзоры (с однородностью*) РКИ

СО (с однородностью*) когортных исследований

СО (с однородностью *)  диагностических исследований 1 уровня в различных популяциях 

ПКР на основе  с исследований  1b из разных клинических центров

СО (с однородностью*) проспективных когортных исследований

СО (с однородностью*) экономических исследований уровня 1

1b

Единичные РКИ (результаты с узким доверительным интервалом )

Когортное исследование (с четко определенными критериями  на начальном этапе с  исходной группой участников)  с последующим наблюдением > 80% участников

ПКР на основании данных в одной популяции

Валидные  ** когортные  исследования с хорошим  референсным стандартом

ПКР протестирован в одном клиническом центре

Проспективное когортное исследование с хорошим последующим наблюдением ****

Анализ, основанный на клинически обоснованных затратах или альтернативах;  СО доказательств, включая многосторонний анализ чувствительности

1c

«Все или ничего»1

«Все или ничего»  исследования «серия наблюдений»

Абсолютные SpPin и SnNout (см. ниже)

«Все или ничего»  исследования «серия наблюдений»

Анализ «стоимость/эффективность»4  (см. ниже)

2a

СО (с однородностью*) когортных исследований

СО (с однородностью*) или ретроспективных когортных исследований, или контрольной группы без лечения в РКИ

СО (с однородностью*) диагностических исследований уровня > 2

СО (с однородностью*) с вкл. исследований уровня 2b или  лучше

СО (с однородностью*) уровня >2 экономических исследований

2b

Единичные когортные исследования или РКИ низкого качества

Ретроспективное когортное исследование или наблюдение за контрольной группой  без лечения в РКИ

Поисковые ПКР или подтвержденные только путем «split-sample» 3.

Поисковое ** когортное исследование с хорошими  референсными стандартами

ПКР после «поиска»  или подтверждения только путем   «split-sample»3 или баз данных

Ретроспективное когортное исследование или низкий %  последующего наблюдения

Анализ, основанный на клинически обоснованных затратах или альтернативах; ограниченный обзор доказательств или единичные исследования,  включая многосторонний анализ чувствительности

2c

Исследование «исходов» (см.ниже); экологические исследования

 Исследование «исходов» (см. ниже)

 

 

Экологические исследования

Аудит или исследование результатов

3a

СО  (с однородностью*) исследований случай-контроль

 

СО (с однородностью *) исследований уровня 3b и лучше

СО (с однородностью *) исследований уровня 3b и лучше

СО (с однородностью *) исследований уровня 3b и лучше

3b

Единичные исследования случай-контроль

 

Исследование с определенными  ограничениями в наборе пациентов  Исследование без последовательно применяемых референсных стандартов

Когортное исследование (с ограничениями) или исследование в очень ограниченной популяции

Анализ, основанный на ограниченных альтернативах или затратах, низком качестве оценок данных, но включая анализ чувствительности, оценку клинически значимых вариаций

4

Серия случаев (и низкого качества когортные исследования, и случай-контроль)2

Серия случаев (и прогностические когортные исследования низкого качества ***)

Исследование случай-контроль, плохой или зависимый референсный стандарт

Серия случаев или исследование с замененным  референсным стандартом

Анализ без применения  анализа чувствительности

5

Мнение экспертов без явной критической оценки или основанное на физиологии, лабораторных исследованиях или «первых принципах»

 

Мнение экспертов или мнение, основанное на  экономической теории

Примечание СО - систематический обзор. ПКР - Правило клинического решения -  алгоритмы или системы оценки, которые приводят к оценке прогноза или  оценке  диагностической точности. * Под однородностью подразумевается СО, в котором нет выраженных вариаций (неоднородности) между отдельными исследованиями в отношении  направления и степени полученных результатов. 〈1〉 - подразумевает исследования, в которых показано , что до того, как стал доступен определенный рецептурный препарат, все пациенты умирали от определенного заболевания, но после применения применения препарата выживаемость улучшилась; или когда некоторые пациенты умерли до того, как стал доступен препарат, но теперь не умирает никто. 〈2〉- под низкокачественным когортным исследованием или случай-контроль подразумевается исследование, в котором не четко определены группы сравнения и / или не измерены  результаты воздействия и исходы одним и тем же (предпочтительно слепым), объективным способом как у пациентов, подвергавшихся воздействию, так и не подвергавшихся или надлежащим образом не были проконтролированы «вмешивающиеся» факторы и / или не проведено  достаточно продолжительное и полное наблюдение за участниками исследования. 〈3〉 - валидация по разделенной выборке (split-sample) достигается путем сбора всей информации в одной «базе» с последующим искусственным разделением ее на «тестируемую/обучающую» и «проверочную» выборки. «Абсолютный SpPin» - это диагностический тест/метод/диагностический подход, специфичность которого настолько высока, что положительный результат является надежным основанием для  диагноза. «Абсолютный SnNout» - это диагностический тест метод/диагностический подход, чувствительность которого настолько высока, что отрицательный результат исключает диагноз. Исследование исходов (Outcomes Research) - исследование, изучающее результаты практики здравоохранения. Оцениваются конечные результаты оказания медицинских услуг с учетом предпочтений и ценностей пациентов - предназначен для предоставления научных доказательств, касающихся решений, принимаемых всеми, кто участвует в оказании медицинской помощи. 〈4〉 Предпочтительное соотношение эффект-стоимость может обозначать, что то метод лечения не хуже альтернативного, но дешевле, или лучше с такой же или меньшей стоимостью. Менее предпочтительные методы лечения  могут обеспечивать такой же или лучший эффект как альтернативные методы, но  более дорогие. Худшие варианты  такие же  по клинической эффективности, но более дорогие. ** Валидные  исследования проверяют качество конкретного диагностического теста на основе предшествующих доказательств. Поисковое исследование собирает информацию и анализирует данные (например, с использованием регрессионного анализа), чтобы определить, какие факторы являются «значимыми». *** Под низкокачественным прогностическим когортным исследованием подразумевается такое, в котором была смещенная выборка, или измерение результатов было выполнено у <80% пациентов исследования, или результаты были определены не «слепым» методом, необъективным  образом, или не было поправок на «вмешивающиеся» факторы. **** Хорошее последующее наблюдение в исследовании составляет наблюдение за > 80%  участников с достаточным временем для выявления альтернативных диагнозов (например, 1-6 месяцев острого, 1-5 лет хронического)         

По-другому выглядит шкала уровней доказательности, разработанная Шотландской межколлегиальной организацией по разработке клинических рекомендаций (SIGN). Шкала  имеет 8 категорий, начинается с «золотого стандарта доказательств» (высококачественные систематические обзоры РКИ, РКИ с очень низким риском систематических ошибок) и заканчивается (при отсутствии доказательств) согласованным мнением экспертов.

Таблица 2.  Шкала уровней доказательности SIGN.

Код

Пояснение

1++

Высококачественные мета-анализы, систематические обзоры РКИ с очень низкой вероятностью систематических ошибок

1+

Качественные мета-анализы, систематические обзоры или РКИ с низкой вероятностью систематических ошибок

1

Мета-анализы, систематические обзоры или РКИ с  высокой вероятностью систематических ошибок

2++

Высококачественные систематические обзоры когортных исследований или исследований случай-контроль

Высококачественные когортные исследования или исследования случай-контроль с очень низкой вероятностью  вмешивающихся факторов и систематических ошибок и высокой вероятностью причинно-следственных связей

2+

Качественные когортные исследования или исследования случай-контроль с низкой вероятностью  вмешивающихся факторов и систематических ошибок и средней вероятностью причинно-следственных связей

2

Когортные исследования или исследования случай-контроль с высокой вероятностью  вмешивающихся факторов и систематических ошибок и значительным риском того, что взаимосвязи  не  носят характер причинно-следственных отношений

3

Не аналитические исследования, описание случаев, серия случаев

4

Мнение экспертов

В системе GRADE не предусмотрена  классификация доказательств в зависимости от типа и методологического качества  исследований. Эксперты в системе GRADE выделяют не уровни, а качество доказательств (табл. 3). И именно данная система в той или иной степени (не всегда полностью) применяется многими профессиональными сообществами врачей при  подготовке клинических рекомендаций.

 Таблица 3. Классификация  качества доказательств в системе GRADE

Уровень  доказательств

 

Пояснение

A

Высокий

Есть большая уверенность в том, что истинный эффект близок к предполагаемому. Дальнейшие исследования вряд ли изменят уверенность в эффекте (несколько качественных исследований с последовательными результатами или в отдельных случаях  одно крупное высококачественное многоцентровое исследование)

B

Средний

Существует умеренная уверенность в оценке эффекта: истинный эффект, вероятно, будет близок к предполагаемому, но есть вероятность, что он существенно отличается (одно крупное высококачественное  исследование или несколько с методологическими ограничениями)

C

Низкий

В оценочном эффекте имеется ограниченный эффект: истинный эффект может существенно отличаться от оцененного (несколько исследований с существенными методологическими ограничениями)

D

Очень низкий

Уверенность в оценке эффекта очень мала: истинный эффект, вероятно, будет существенно отличаться от предполагаемого  (экспертные мнения, нет прямых доказательств, исследования  с существенными методологическими ограничениями)

GRADE  выделяет пять факторов, на основании которых эксперты могут уменьшить оценку качества доказательств, и три‒повысить качество (табл. 4,5).

Таблица 4.  Факторы, которые могут понизить оценку качества доказательств

Фактор

Влияние

Ограничения в дизайне или проведении исследования (риск систематической ошибки)

↓ 1 или 2 уровня

Несогласованность результатов разных исследований

↓ 1 или 2 уровня

Косвенные  доказательства

↓ 1 или 2 уровня

Неточность

↓ 1 или 2 уровня

Предвзятость публикации

↓ 1 или 2 уровня

Таблица 5. Факторы, которые могут  увеличить оценку качества доказательств

Фактор

Влияние

Большая величина эффекта

 1 или 2 уровня

Если имевшиеся в исследовании вмешивающиеся факторы могли снизить клинический эффект или увеличить его при отсутствии

 1 уровень

Градиент доза-ответ

 1 уровень

В мире существуют и другие организации, разрабатывающие свои подходы к оценке уровней доказательности. Так, например, на сайте библиотеки Университета Стоуни-Брук (штат Нью-Йорк, США) представлена следующая классификация уровней доказательств (табл. 6).

Таблица 6. Классификация уровней доказательств Университета Стоуни-Брук4.

Уровень доказательств

Пояснение

I

Данные систематического обзора всех соответствующих РКИ

II

Данные мета-анализа всех соответствующих РКИ

III

Доказательства на основании  уже проведенных (опубликованных)  систематических обзоров

IV

Данные guidelines (рекомендаций), разработанных на основе систематических обзоров

V

Данные мета-синтеза  группы описательных или качественных исследований

VI

Данные,  обобщающие отдельные исследования

VII

Данные одного правильно спланированного РКИ

VIII

Данные не РКИ, когортных исследований, серий случаев, отчетов о случаях и отдельных качественных исследований

IX

Экспертные мнения, консенсус

Классификация доказательств, которые используют национальные службы, разрабатывающие рекомендации по профилактическим мероприятиям для населения в целом и целевых групп. Пример 1. Канадская служба по разработке мер профилактики (Canadian Task Force on Preventive Health Care, CTFPHC 5) в работе применяет оба понятия: как уровень доказательств  на основании рейтинга дизайна исследований, так  и качество доказательств (табл. 7,8).

Таблица 7.  Уровни доказательств, используемые Канадской службой по разработке мер профилактики (в том числе скрининга).

Уровень доказательств

Пояснение

I

По крайней мере  1 РКИ с надлежащим качеством рандомизации

II.1

Когортное исследование или исследование случай-контроль с хорошим дизайном

II.2

Серия сравнительных исследований с наблюдением во времени, явные (впечатляющие) результаты неконтролируемых (обсервационных) исследований

III

Мнение экспертов

Таблица 8. Классификация  качества доказательств Канадской службы по разработке мер профилактики (в том числе скрининга) 

Качество доказательств

Пояснения

Высокого качества

Эксперты  абсолютно уверены в том, что истинный эффект близок к  данным  оценки эффекта в исследовании. Например, широкий спектр исследований без серьезных ограничений, между исследованиями мало различий, а итоговая оценка имеет узкий доверительный интервал

Умеренного качества

Эксперты считают, что истинный эффект, вероятно, будет близок к  данным  оценки эффекта в исследовании, но есть вероятность, что  эффект будет другим. Например,  если имеется всего несколько исследований,  некоторые из них имеют определенные ограничения по качеству, но не серьезные недостатки, есть некоторые различия между исследованиями или широкий доверительный интервал итоговой оценки

Низкое или очень низкое качество

Истинный эффект может существенно отличаться от оценки эффекта. Например, если исследования имеют серьезные недостатки, между исследованиями есть существенные различия или широкий доверительный интервал итоговой оценки

Пример 2. Целевая группа по профилактическим мероприятиям США (USPSTF6)  для оценки мер популяционной профилактики (в том числе скрининга) применяет только оценку качества доказательств (табл. 9).

Таблица 9. Классификации качества   доказательств, используемая  USPSTF для оценки мер популяционной профилактики (в том числе скрининга).

Качество доказательств

Пояснения

Хороший

Доказательства включают однозначные результаты хорошо спланированных и хорошо проведенных исследований в репрезентативных популяциях, которые непосредственно оценивают результаты, значимые  для здоровья

Удовлетворительный

Фактических данных достаточно для определения результатов, значимых для здоровья, но их сила ограничена количеством, качеством или однонаправленными результатами отдельных исследований, возможностью обобщения результатов на повседневную  практику или косвенным характером доказательств в отношении здоровья

Плохое

Данных недостаточно для оценки воздействия на здоровье из-за ограниченного количества или мощности исследований, серьезных недостатков в их дизайне или проведении, пробелов в цепочке доказательств или отсутствия информации о важных результатах для здоровья

Несмотря на то, что в системах оценки  GRADE,  CTFPHC,  USPSTF выделяется по четыре степени качества доказательств и в целом определение уровней совпадает, различия в деталях   существуют (табл. 3, 8 и 9).  

Классификация доказательств, которые используют профессиональные сообщества врачей при разработке клинических рекомендаций

Профессиональные сообщества врачей при разработке рекомендаций применяют разные подходы к оценке уровня и качества доказательств. Пример 1. Европейское общество кардиологов и Европейское общество сердца (ESH/ESC) более 20 лет применяют следующую классификацию уровней доказательности данных (табл.10).

Таблица 10.  Уровни доказательств, используемые ESH/ESC7     

Уровень доказательности

Пояснение

A    

Данные, полученные в ходе многочисленных РКИ или мета-анализов

В    

Данные, полученные в ходе одного  РКИ или больших   не РКИ

С    

Консенсус мнений экспертов и/или данные мелких, ретроспективных исследований.

Пример 2. Не все профессиональные сообщества врачей стран Европы используют именно такой подход. Так, например, Европейское общество экстренной медицины (2020 г.8)  использовало следующий подход (табл.11).

 Таблица 11.  Уровни доказательств, используемые EUSEM

Уровень доказательности

Пояснение

IA

Мета-анализ РКИ

IB

РКИ, выполненное по стандартам GCP

IIA

Не РКИ,  открытые контролируемые исследования  и наблюдательные исследования

IIB

Другой тип  исследования, например, ретроспективное когортное исследование

III

Описательное исследование ( например, серия случаев, исследования случай-контроль)

IV

Экспертное заключение

Пример 3. Другой подход (по сравнению с ESH/ESC) к оценке доказательности использован  JNC 8 (Eighth Joint National Committee, США). Особенность подхода – экспертами не применялся цифровой или буквенный код при классификации, представлена оценка  качества, но не  уровней доказательности.

Таблица 12. Классификация качества доказательств, используемая  в JNC 8

Качество доказательств

Пояснение

Высокий уровень

Данные, полученные в ходе методологически корректных рандомизированных клинических исследований, в которых представлена репрезентативная выборка популяции и которые оценивают значимые клинические исходы

Мета-анализы качественных РКИ

Дальнейшие исследования в этом направлении вряд ли могут изменить оценку эффекта лечения

Средний

РКИ с незначительными методологическими ограничениями, которые могут повлиять на уверенность в применимости результатов
Хорошо организованные нерандомизированные контролируемые и обсервационные исследования (регистры)
Правильно проведенные мета-анализы таких исследований
Дальнейшие исследования могут оказать влияние на уверенность в оценке эффекта

Низкий

РКИ, которые нельзя отнести к категориям, указанным в п. 1

Нерандомизированные контролируемые и обсервационные исследования без соответствующих групп сравнения с ограничениями по качеству, влияющими на доверие и 
применимость результатов

Физиологические исследования на людях

Мета-анализ этих исследований

Низкая уверенность в результатах; дальнейшие исследования  могут изменить оценку эффекта

Пример 4. Американское общество пластических хирургов 10при разработке своих рекомендаций   модифицировало уровни доказательств, разработанные Оксфордским центром ДМ 11для прогностических исследований, следующим образом (табл.13).

Таблица 13. Классификация  уровней доказательств, используемая Американским обществом пластических хирургов. 

Уровень доказательств

Пояснения

I

Высококачественное проспективное когортное исследование адекватной статистической мощности или систематический обзор таких исследований 

II

Менее качественное проспективное когортное исследование или ретроспективное когортное исследование, данные РКИ или систематический обзор таких исследований 

III

Исследования случай-контроль или систематический обзор таких исследований 

IV

Исследования серия случаев

V

Экспертное мнение, описание случаев, клинические примеры, доказательства, основанные на физиологии 

Таким образом, разные страны и разные профессиональные сообщества разрабатывают и применяют собственные  подходы к оценке и классификации уровней доказательств. Эти подходы могут быть как жесткими и детализированными (как, например, классификация уровней доказательности Оксфордского центра ДМ, учитывающая  дизайн и цели исследований), так дилетантскими (например, классификация ECS –  указан только тип исследований, применяемый  для оценки методов лечения, без учета их качества). С последним подходом нельзя согласиться, так как РКИ на всех этапах планирования, проведения и анализа имеют ряд недостатков и ограничений, которые могут повлиять на результаты. Результаты РКИ могут доказать преимущество по комбинированным показателям, с крайне незначительным преимуществом,  часть из которых не значимы с точки зрения пациента, но в уровнях доказательности этот аспект никаким образом не учитывается.  Обращает внимание, что во всех классификациях уровней доказательств экспертное мнение отнесено к доказательствам. Но консенсус экспертных мнений  не является научным доказательством. Консенсус ‒ это просто форма  группового мышления. Например, в начале 20-го века существовал консенсус о том, что женщины не способны обучаться  и работать  врачом, в последующем консенсус сместился к обратному.  В прошлом веке социальные психологи (эксперименты Милграма, 1965, 1974) в опытах наглядно показали, как быстро и легко люди подчиняются «начальнику» (экспериментатору)  или  мнению группы, чтобы не быть «белой вороной», даже если это противоречит их взглядам и убеждениям.

Понятие «качество доказательств» (при условии соблюдения всех методологических требований к его определению) в большей степени отражает понятие «доказательство», а именно то, что «ожидаемые» результаты (полученные в исследованиях) повторятся в рутинной клинической практике, т.к. учитывает  не только дизайн исследований, но и  величину важных клинических исходов,  повторяемость результатов в разных исследованиях, другие факторы.

Применение методики оценки уровня и качества доказательств требует специальных знаний, времени  и  опыта, которые существенным образом отличаются  от знаний клинической медицины.

Список литературы

1. Systems to Rate the Strength of Scientific Evidence. Evidence Report/Technology Assessment Number 47. Prepared for: Agency for Healthcare Research and Quality. AHRQ Publication No. 02- E016, April 2002, 199.2.

2. Андреева Н.С., Реброва О.Ю., Зорин Н.А., Авксентьева М.В., Омельяновский В.В. Системы оценки достоверности научных доказательств и убедительности рекомендаций: сравнительная характеристика и перспективы унификации. Медицинские технологии: оценка и выбор. 2012, № 4, стр. 10‒24.

3. The Oxford 2011 Levels of Evidence. http://www.cebm.net/mod_product/design/files/CEBM-Levels-of-Evidence-2.1.pdf http://www.cebm.net

4.  https://guides.library.stonybrook.edu/evidence-based-medicine/levels_of_evidence

5. https://www.cmaj.ca/content/suppl/2004/03/15/170.6.976.DC1/palda_appendix.pdf

6.  https://www.uspreventiveservicestaskforce.org/uspstf/grade-definitions    

7. https://www.escardio.org/Guidelines

8. «Guidelines for the management of acute pain in emergency situations»: www.eusem.org   

9. James P. A., Oparil S., Carter B. L., Cushman W. C., Dennison-Himmelfarb C., Handler J. et al. 2014 evidence-based guideline for the management of high blood pressure in adults: report from the panel members appointed to the Eighth Joint National Committee (JNC 8) JAMA 2014;311(17):1809] JAMA. 2014;311(5):507–20.

10. Adapted from the American Society of Plastic Surgeons, http://www.plasticsurgery.org/Medical_Professionals/Health_Policy_and_Advocacy/Health_Policy_Resources/Evidence-based_GuidelinesPractice_Parameters/Description_and_Development_of_Evidence-based_Practice_Guidelines/ASPS_Evidence_Rating_Scales.html

11. https://www.essentialevidenceplus.com/product/ebm_loe.cfm?show=oxford

 

Нет комментариев

Комментариев: 0

Вы не можете оставлять комментарии
Пожалуйста, авторизуйтесь
Продолжая использовать наш сайт, вы даете согласие на обработку файлов cookie, которые обеспечивают правильную работу сайта.