Сравнение способов работы системы искусственного интеллекта в режиме сверхвысокой чувствительности для автономного описания цифровых флюорограмм без патологии
- Авторы: Никитин Е.Д.1, Плаксин Н.С.1, Гарец М.Б.1, Гутин Е.М.1
-
Учреждения:
- ООО «Медицинские Скрининг Системы»
- Выпуск: Том 5, № 1S (2024)
- Страницы: 71-73
- Раздел: МОЛОДЫЕ УЧЕНЫЕ: тезисы конференции НПКЦ
- Статья получена: 25.01.2024
- Статья одобрена: 06.02.2024
- Статья опубликована: 03.07.2024
- URL: https://jdigitaldiagnostics.com/DD/article/view/626001
- DOI: https://doi.org/10.17816/DD626001
- ID: 626001
Цитировать
Полный текст
Аннотация
Обоснование. До 95% исследований при скрининге с помощью метода цифровой флюорографии не содержат патологических изменений. Врачи-рентгенологи тратят большую часть своего времени на просмотр и описание именно таких исследований. В этих случаях системы искусственного интеллекта могут быть использованы для автоматизации описания и экономии времени врачей [1–3].
Цель — сравнить различные алгоритмы работы существующей системы искусственного интеллекта в сценарии сверхвысокой чувствительности и оценить процент исследований, подлежащих автоматическому описанию.
Материалы и методы. Для анализа использовалась система искусственного интеллекта «Цельс.Флюорография» версии 0.15.3. Для сравнения был выбран набор данных из разных медицинских организаций, содержащий 11 707 исследований без патологии и 5846 исследований с патологией. Для расчёта метрик из этого датасета 1000 раз сэмплировалась подвыборка, содержащая 500 исследований с патологией и 9500 исследований без патологии (баланс 5% к 95%), после чего полученные метрики усреднялись.
В качестве источника целевой переменной использовалась разметка двух врачей, в случае расхождения мнений исследование оценивалось врачом-экспертом. Исследование считалось патологическим, если итоговая разметка содержала хотя бы один из 12 рентгенологических признаков [4].
Для сравнения метрик были использованы пять методов: по максимальной (1) и средней (2) вероятности рентгенологических признаков, локализованных нейронной сетью-детектором; по максимальной (3) и средней (4) вероятности наличия признаков, полученных с помощью специальных «голов» нейронной сети, обученных определять наличие каждого признака на изображении (0 — отсутствие признака, 1 — наличие); по вероятности (5), полученной с помощью отдельной «головы» нейронной сети, обученной определять бинарное наличие патологии на исследовании (0 — норма, 1 — патология).
Для каждого метода был выбран порог срабатывания, который обеспечивал не более 1 пропуска патологии на 1000 исследований на текущей подвыборке. В качестве основной метрики качества рассчитывался процент исследований, которые верно могли бы быть автоматически описаны искусственным интеллектом как исследования без патологии.
Результаты. Методы продемонстрировали следующие усреднённые проценты отсева нормы: 66,4%, 72,2%, 69,0%, 74,1%, 68,7% — и следующие показатели площади под ROC-кривой: 0,948, 0,957, 0,964, 0,967, 0,971. При этом 95% доверительный интервал отсева для лучшего метода составил 66,1–79,4%.
Заключение. Современные системы искусственного интеллекта могут быть использованы для автоматизации описания значительной части скрининговых исследований. Лучший результат отсева нормы (свыше 74% потока) показал метод усреднения вероятностей, полученных с помощью специальных «голов» нейронной сети, обученных определять наличие патологии.
Ключевые слова
Полный текст
Обоснование. До 95% исследований при скрининге с помощью метода цифровой флюорографии не содержат патологических изменений. Врачи-рентгенологи тратят большую часть своего времени на просмотр и описание именно таких исследований. В этих случаях системы искусственного интеллекта могут быть использованы для автоматизации описания и экономии времени врачей [1–3].
Цель — сравнить различные алгоритмы работы существующей системы искусственного интеллекта в сценарии сверхвысокой чувствительности и оценить процент исследований, подлежащих автоматическому описанию.
Материалы и методы. Для анализа использовалась система искусственного интеллекта «Цельс.Флюорография» версии 0.15.3. Для сравнения был выбран набор данных из разных медицинских организаций, содержащий 11 707 исследований без патологии и 5846 исследований с патологией. Для расчёта метрик из этого датасета 1000 раз сэмплировалась подвыборка, содержащая 500 исследований с патологией и 9500 исследований без патологии (баланс 5% к 95%), после чего полученные метрики усреднялись.
В качестве источника целевой переменной использовалась разметка двух врачей, в случае расхождения мнений исследование оценивалось врачом-экспертом. Исследование считалось патологическим, если итоговая разметка содержала хотя бы один из 12 рентгенологических признаков [4].
Для сравнения метрик были использованы пять методов: по максимальной (1) и средней (2) вероятности рентгенологических признаков, локализованных нейронной сетью-детектором; по максимальной (3) и средней (4) вероятности наличия признаков, полученных с помощью специальных «голов» нейронной сети, обученных определять наличие каждого признака на изображении (0 — отсутствие признака, 1 — наличие); по вероятности (5), полученной с помощью отдельной «головы» нейронной сети, обученной определять бинарное наличие патологии на исследовании (0 — норма, 1 — патология).
Для каждого метода был выбран порог срабатывания, который обеспечивал не более 1 пропуска патологии на 1000 исследований на текущей подвыборке. В качестве основной метрики качества рассчитывался процент исследований, которые верно могли бы быть автоматически описаны искусственным интеллектом как исследования без патологии.
Результаты. Методы продемонстрировали следующие усреднённые проценты отсева нормы: 66,4%, 72,2%, 69,0%, 74,1%, 68,7% — и следующие показатели площади под ROC-кривой: 0,948, 0,957, 0,964, 0,967, 0,971. При этом 95% доверительный интервал отсева для лучшего метода составил 66,1–79,4%.
Заключение. Современные системы искусственного интеллекта могут быть использованы для автоматизации описания значительной части скрининговых исследований. Лучший результат отсева нормы (свыше 74% потока) показал метод усреднения вероятностей, полученных с помощью специальных «голов» нейронной сети, обученных определять наличие патологии.
Об авторах
Евгений Дмитриевич Никитин
ООО «Медицинские Скрининг Системы»
Автор, ответственный за переписку.
Email: e.nikitin@celsus.ai
ORCID iD: 0000-0001-7181-1036
https://t.me/varim_ml
Россия, Санкт-Петербург
Никита Сергеевич Плаксин
ООО «Медицинские Скрининг Системы»
Email: plaksin_ns@astralai.net
Россия, Санкт-Петербург
Мария Борисовна Гарец
ООО «Медицинские Скрининг Системы»
Email: garets_mb@astralai.net
Россия, Санкт-Петербург
Евгений Максимович Гутин
ООО «Медицинские Скрининг Системы»
Email: gutin_em@astralai.net
Россия, Санкт-Петербург
Список литературы
- Plesner L.L., Müller F.C., Nybing J.D., et al. Autonomous Chest Radiograph Reporting Using AI: Estimation of Clinical Impact // Radiology. 2023. Vol. 307, N 3. doi: 10.1148/radiol.222268
- Mansoor A., Schmuecking I., Ghesu F.-C., et al. Using AI to Identify Chest Radiographs with No Actionable Disease in Outpatient Imaging [Internet]. PREPRINT (Version 1) at Research Square; 2023. doi: 10.21203/rs.3.rs-2924070/v1
- Keski-Filppula T., Nikki M., Haapea M., Ramanauskas N., Tervonen O. Using artificial intelligence to detect chest X-rays with no significant findings in a primary health care setting in Oulu, Finland [Internet]. Preprint (Version 1). at arXiv; 2022. doi: 10.48550/ARXIV.2205.08123
- Базовые диагностические требования к результатам работы ИИ-сервисов [Интернет]. Государственное бюджетное учреждение здравоохранения города Москвы «Научно-практический клинический центр диагностики и телемедицинских технологий Департамента здравоохранения города Москвы». c2012-2023. Доступ по ссылке: https://mosmed.ai/ai/docs/