Искусственный интеллект в лучевой диагностике: не навреди!

06.01.2019
00:00
«Искусственный интеллект» (ИИ) – это тема нового хайпа и новых надежд на прорыв в здравоохранении, прежде всего в лучевой диагностике. Основу для нового витка эволюции «искусственного интеллекта» создало стремительное развитие вычислительных возможностей, компьютерной инфраструктуры и математических методов в последние годы. Интеллектуальные технологии стали основой для тысяч проектов по всему земному шару. С их помощью пытаются эффективно решать самые разные задачи: диагностические, лечебные, профилактические, организационные.

К сожалению, избыточный ажиотаж на тему ИИ приводит к поспешным, зачастую опасным действиям. Множество стартапов пытаются внедрять откровенно «сырые» алгоритмы, не прошедшие даже элементарную валидацию на новых – неизвестных алгоритму – данных (не говоря уже о полноценных клинических испытаниях). Более того, часть таких решений появляется на рынке в виде коммерческих продуктов, маскирующих ответственность за результат под набившим оскомину термином «информационные услуги». Полагаем необходимым обязательную научную оценку диагностической точности алгоритмов ИИ, разрабатываемых для лучевой диагностики. Такая оценка должна проводиться с использованием эталонных дата-сетов, которые не применялись для разработки и «не знакомы» данному алгоритму.

Для подтверждения своей точки зрения мы провели предварительный анализ алгоритмов ИИ. В это мини-исследование были включены сервисы, разработанные отечественными стартапами и публично представленные в свободном доступе или для коммерческого использования. Для обеспечения единообразия рассматривались только алгоритмы анализа цифровых рентгенограмм (или флюорограмм) органов грудной клетки.

На момент этой работы мы обнаружили 3 доступных сервиса, подходящих под перечисленные критерии: «Третье мнение», «Второе мнение AI» и «Фтизисбиомед». Все сервисы имели следующие ограничения: оценка рентгенограммы (флюорограммы) только в одной проекции, нет обнаружений экстрапульмонарной патологии, не поддерживается работа с DICOM (все сервисы работают с изображениями в публичных форматах PNG и JPEG). Вероятность признака указывала только система «Третье мнение», а диагноз определял только сервис «Второе мнение AI (DoctorSmart)». Научная оценка диагностической точности алгоритмов с публикацией результатов в рецензируемом журнале была сделана только для сервиса «Фтизисбиомед».

Для тестирования мы подготовили мини-дата-сет из 11 рентгенограмм. Отметим, что подобранные случаи были, как принято говорить, «студенческими», не требующими сложной дифференциальной диагностики.

Рентгенограммы были проанализированы с использованием 3 перечисленных сервисов. Результаты представлены в таблице и на иллюстрациях. 

Результаты предварительного мини-тестирования алгоритмов ИИ для анализа рентгенограмм грудной клетки

Случай

Сервис и оценка

«Третье мнение»

«Второе мнение AI (DoctorSmart)»

«Фтизисбиомед»

Случай № 1 – Норма

Совпадение

Несовпадение

Несовпадение

Случай № 2 – Милиарные изменения легких (милиарный туберкулез)

Несовпадение

Несовпадение

Совпадение

Случай № 3 – Повышение прозрачности легкого (спонтанный пневмоторакс)

Несовпадение*

Несовпадение

Совпадение

Случай № 4 – Субтотальное снижение прозрачности легкого с косой линией (плевральный выпот)

Несовпадение

Несовпадение

Совпадение

Случай № 5 – Множественные узлы легких (метастатическое поражение легких)

Несовпадение

Несовпадение

Совпадение

Случай № 6 – Полость (постпневматическая пневмоцеле)

Несовпадение*

Несовпадение

Совпадение

Случай № 7 – Консолидация (у пациента с пневмонией)

Совпадение

Совпадение

Совпадение

Случай № 8 – Кардиомегалия (перикардиальный выпот)

Несовпадение

Несовпадение

Совпадение

Случай № 9 – Расширение средостения (лимфома)

Совпадение

Несовпадение*

Совпадение

Случай № 10 – Образование правого корня и пейсмейкер слева

Совпадение

Несовпадение

Совпадение

Случай № 11 – Нерелевантное изображение (шейный отдел позвоночника – атланто-оксипитальная дислокация)

Несовпадение

Совпадение

Несовпадение

* Ответ системы: патологии не обнаружено 

Примеры рентгенограмм из тестового дата-сета и результаты интерпретаций алгоритмами ИИ

«Третье мнение»:

Инфильтрация (0,44)

«Второе мнение AI (DoctorSmart)»:

Патологий не выявлено. Вы здоровы.

Случай № 9 – Расширение средостения (лимфома)

«Фтизисбиомед»

Необходима консультация врача

«Третье мнение»:

Инфильтрация 0,73

«Второе мнение AI (DoctorSmart)»:

Вероятно, у вас: пневмония, пневмофиброз, пневмосклероз

Случай № 5 – Множественные узлы легких (метастатическое поражение легких)

«Фтизисбиомед»

Необходима консультация врача

«Третье мнение»:

Усиление рисунка 0,43

«Второе мнение AI (DoctorSmart)»:

Вероятно, у вас: гидроторакс, пневмосклероз

Случай № 4 – Субтотальное снижение прозрачности легкого с косой линией (плевральный выпот)

«Фтизисбиомед»

Необходима консультация врача

Таким образом, диагностическая точность сервисов на основе ИИ распределилась так:

  • «Третье мнение»: совпадение – 36%, несовпадение – 64%;
  • «Второе мнение AI (DoctorSmart)»: совпадение – 18%, несовпадение – 82%;
  • «Фтизисбиомед»: совпадение – 82%, несовпадение – 18%.

Полученные результаты полностью подтверждают наш тезис, высказанный ранее. Корректный процесс разработки ИИ для медицины должен включать: обоснованную постановку задачи, разработку и калибровку на валидном дата-сете, независимую оценку диагностической точности на эталонном наборе данных (совершенно отличных от выборки, использованной для разработки), регистрацию в качестве медицинского изделия. Полагаем, что настало время в очередной раз вспомнить древний принцип «Не навреди!».

Присоединяйтесь!

Самые важные новости сферы здравоохранения теперь и в нашем Telegram-канале @medpharm.

Нет комментариев

Комментариев: 0

Вы не можете оставлять комментарии
Пожалуйста, авторизуйтесь
Продолжая использовать наш сайт, вы даете согласие на обработку файлов cookie, которые обеспечивают правильную работу сайта.