Искусственный интеллект в лучевой диагностике: не навреди!
К сожалению, избыточный ажиотаж на тему ИИ приводит к поспешным, зачастую опасным действиям. Множество стартапов пытаются внедрять откровенно «сырые» алгоритмы, не прошедшие даже элементарную валидацию на новых – неизвестных алгоритму – данных (не говоря уже о полноценных клинических испытаниях). Более того, часть таких решений появляется на рынке в виде коммерческих продуктов, маскирующих ответственность за результат под набившим оскомину термином «информационные услуги». Полагаем необходимым обязательную научную оценку диагностической точности алгоритмов ИИ, разрабатываемых для лучевой диагностики. Такая оценка должна проводиться с использованием эталонных дата-сетов, которые не применялись для разработки и «не знакомы» данному алгоритму.
Для подтверждения своей точки зрения мы провели предварительный анализ алгоритмов ИИ. В это мини-исследование были включены сервисы, разработанные отечественными стартапами и публично представленные в свободном доступе или для коммерческого использования. Для обеспечения единообразия рассматривались только алгоритмы анализа цифровых рентгенограмм (или флюорограмм) органов грудной клетки.
На момент этой работы мы обнаружили 3 доступных сервиса, подходящих под перечисленные критерии: «Третье мнение», «Второе мнение AI» и «Фтизисбиомед». Все сервисы имели следующие ограничения: оценка рентгенограммы (флюорограммы) только в одной проекции, нет обнаружений экстрапульмонарной патологии, не поддерживается работа с DICOM (все сервисы работают с изображениями в публичных форматах PNG и JPEG). Вероятность признака указывала только система «Третье мнение», а диагноз определял только сервис «Второе мнение AI (DoctorSmart)». Научная оценка диагностической точности алгоритмов с публикацией результатов в рецензируемом журнале была сделана только для сервиса «Фтизисбиомед».
Для тестирования мы подготовили мини-дата-сет из 11 рентгенограмм. Отметим, что подобранные случаи были, как принято говорить, «студенческими», не требующими сложной дифференциальной диагностики.
Рентгенограммы были проанализированы с использованием 3 перечисленных сервисов. Результаты представлены в таблице и на иллюстрациях.
Результаты предварительного мини-тестирования алгоритмов ИИ для анализа рентгенограмм грудной клетки
Случай |
Сервис и оценка |
||
«Третье мнение» |
«Второе мнение AI (DoctorSmart)» |
«Фтизисбиомед» |
|
Случай № 1 – Норма |
Совпадение |
Несовпадение |
Несовпадение |
Случай № 2 – Милиарные изменения легких (милиарный туберкулез) |
Несовпадение |
Несовпадение |
Совпадение |
Случай № 3 – Повышение прозрачности легкого (спонтанный пневмоторакс) |
Несовпадение* |
Несовпадение |
Совпадение |
Случай № 4 – Субтотальное снижение прозрачности легкого с косой линией (плевральный выпот) |
Несовпадение |
Несовпадение |
Совпадение |
Случай № 5 – Множественные узлы легких (метастатическое поражение легких) |
Несовпадение |
Несовпадение |
Совпадение |
Случай № 6 – Полость (постпневматическая пневмоцеле) |
Несовпадение* |
Несовпадение |
Совпадение |
Случай № 7 – Консолидация (у пациента с пневмонией) |
Совпадение |
Совпадение |
Совпадение |
Случай № 8 – Кардиомегалия (перикардиальный выпот) |
Несовпадение |
Несовпадение |
Совпадение |
Случай № 9 – Расширение средостения (лимфома) |
Совпадение |
Несовпадение* |
Совпадение |
Случай № 10 – Образование правого корня и пейсмейкер слева |
Совпадение |
Несовпадение |
Совпадение |
Случай № 11 – Нерелевантное изображение (шейный отдел позвоночника – атланто-оксипитальная дислокация) |
Несовпадение |
Совпадение |
Несовпадение |
* Ответ системы: патологии не обнаружено
Примеры рентгенограмм из тестового дата-сета и результаты интерпретаций алгоритмами ИИ
«Третье мнение»: |
Инфильтрация (0,44) |
|
«Второе мнение AI (DoctorSmart)»: |
Патологий не выявлено. Вы здоровы. |
|
Случай № 9 – Расширение средостения (лимфома) |
«Фтизисбиомед» |
Необходима консультация врача |
«Третье мнение»: |
Инфильтрация 0,73 |
|
«Второе мнение AI (DoctorSmart)»: |
Вероятно, у вас: пневмония, пневмофиброз, пневмосклероз |
|
Случай № 5 – Множественные узлы легких (метастатическое поражение легких) |
«Фтизисбиомед» |
Необходима консультация врача |
«Третье мнение»: |
Усиление рисунка 0,43 |
|
«Второе мнение AI (DoctorSmart)»: |
Вероятно, у вас: гидроторакс, пневмосклероз |
|
Случай № 4 – Субтотальное снижение прозрачности легкого с косой линией (плевральный выпот) |
«Фтизисбиомед» |
Необходима консультация врача |
Таким образом, диагностическая точность сервисов на основе ИИ распределилась так:
- «Третье мнение»: совпадение – 36%, несовпадение – 64%;
- «Второе мнение AI (DoctorSmart)»: совпадение – 18%, несовпадение – 82%;
- «Фтизисбиомед»: совпадение – 82%, несовпадение – 18%.
Полученные результаты полностью подтверждают наш тезис, высказанный ранее. Корректный процесс разработки ИИ для медицины должен включать: обоснованную постановку задачи, разработку и калибровку на валидном дата-сете, независимую оценку диагностической точности на эталонном наборе данных (совершенно отличных от выборки, использованной для разработки), регистрацию в качестве медицинского изделия. Полагаем, что настало время в очередной раз вспомнить древний принцип «Не навреди!».
Нет комментариев
Комментариев: 0