Diagnosis of intracranial haemorrhage on brain computed tomography with artificial intelligence: 1.5 years of real clinical practice
- Authors: Khoruzhaya A.1, Arzamasov K.M.2, Kodenko M.R.3,4, Kremneva E.I.5, Burenchev D.V.6
-
Affiliations:
- State Budget-Funded Health Care Institution of the City of Moscow "Research and Practical Clinical Center for Diagnostics and Telemedicine Technologies of the Moscow Health Care Department"
- Scientific and Practical Clinical Center for Diagnostics and Telemedicine Technologies of the Moscow Department of Health
- Moscow Center for Diagnostics and Telemedicine
- Bauman Moscow State Technical University
- Scientific and Practical Clinical Center for Diagnostics and Telemedicine Technologies
- Research and Practical Clinical Center for Diagnostics and Telemedicine Technologies
- Section: Original Study Articles
- Submitted: 13.01.2025
- Accepted: 05.02.2025
- Published: 02.06.2025
- URL: https://jdigitaldiagnostics.com/DD/article/view/645364
- DOI: https://doi.org/10.17816/DD645364
- ID: 645364
Cite item
Full Text
Abstract
The aim is to evaluate the functioning of the AI service for diagnosis of ICH using native brain CT data from the moment of entry into the Experiment and during 18 months in the framework of multicentre clinical monitoring.
Methods: This retrospective study, approved by the Moscow Radiological Society (ClinicalTrials NCT0448999992), analyzed data from the Unified Radiology Information Service of Moscow (URIS EMIAS), covering 56 inpatients with anonymized brain CT scans. The AI underwent three testing phases: self-testing on 10 CTs, functional testing on 5 CTs, and calibration testing on 100 CTs with a balanced normal/pathology dataset. Monthly, two neuroradiologists assessed 80 randomly selected brain CTs processed by the AI. Metrics such as sensitivity (Se), specificity (Sp), accuracy (Ac), and area under the receiver operating characteristic curve (AUROC) were derived from ROC analysis.
Results: Out of 1200 evaluated CTs, 580 (48.3%) showed ICH features. The AI's diagnostic metrics were Se 97.4% (95.8-98.5), Sp 75.4% (71.8-78.7), Ac 86.0% (83.9-87.9), and AUROC 92.6% (86.3-98.8). A moderate positive correlation was observed for all metrics over time, except Se, which changed with AI updates. However, only 162 CTs (28.5%) matched radiologist descriptions completely, while discrepancies occurred in 404 CTs (71.5%). Adjusted metrics for fully matching cases were Se 26.6%, Sp 73.8%, Ac 50.1%, and AUROC 49.6%.
Conclusion: The AI service effectively identifies hemorrhages, aiding urgent patient triage in emergency departments due to its high probability of exclusion for hemorrhage cases. However, the low refined metrics indicate significant discrepancies between radiologists and the AI regarding pathology details such as segmentation and description, highlighting areas for improvement in AI diagnostics.
Full Text
Введение
Внутричерепное кровоизлияние (ВЧК) — потенциально опасное для жизни острое состояние, связанное с экстравазацией крови в ткани головного мозга, которое может возникнуть либо спонтанно, либо в случае травмы головы или хирургического вмешательства. Этиология нетравматического ВЧК, частота которого составляет >25 на 100 000 человеко-лет, разнообразна и включает артериальную гипертензию, инсульт, разрыв аневризмы, васкулопатию, тромбоз венозного синуса, артериовенозную фистулу, злокачественные новообразования, применение антикоагулянтов и реже воспалительные заболевания (1). Остро возникшее ВЧК связано с ранней смертностью в 40–50% случаев и выраженной инвалидизацией у выживших пациентов (1,2). Типы ВЧК выделяются чаще всего по «территориальному» принципу экстравазации крови в эпидуральный, субдуральный, субарахноидальный или паренхиматозный (внутримозговой) отделы и различаются с точки зрения клинической картины, особенностей визуализации и прогноза. Компьютерная томография головного мозга (КТ ГМ) – основной диагностический инструмент, который применяется для обследования пациентов, поступающих в отделения неотложной помощи с головной болью или очаговыми неврологическими нарушениями. Это относительно быстрый и доступный метод, который позволяет оперативно оценить степень тяжести патологического процесса и определить тактику лечения, что может критическим образом определить исход при ВЧК (3). Важно отметить, что ранняя диагностика ВЧК имеет решающее клиническое значение, поскольку почти половина летальных исходов регистрируются в первые 24 часа (4).
Технологии искусственного интеллекта (ТИИ) активно и успешно применяются в лучевой диагностике, например, для первого чтения маммограмм при скрининге рака молочной железы (5), более того – диагностические метрики таких сервисов и их надежность вкупе с увеличением скорости диагностики позволили включить процедуру обработки в тариф Фонда обязательного медицинского страхования в Москве (6). ИИ востребован и для задач первичной диагностики ВЧК, т.к. эта патология имеет хорошо дифференцируемые диагностические признаки. Целесообразность внедрения ИИ для диагностики ВЧК обусловлена необходимостью ускорения процесса первичной диагностики и повышения его точности (7,8), например, за счет триажа пациентов и ранжирования рабочих списков рентгенологов (9,10). Применение ИИ, в свою очередь, возможно только при условии высоких и надежных показателей диагностической точности, что зависит от качества обучающих и валидационных данных (11,12). Несмотря на возрастающую техническую производительность ИИ его внедрение в клиническую практику является довольно сложным процессом и до сих пор происходит медленно (13). Основным ограничивающим фактором внедрения остается недостаточная стабильность диагностических показателей ИИ: даже одобренные для применения в практике алгоритмы ИИ зачастую не способны воспроизвести заявленные метрики при апробации на внешних данных. Все это обуславливает необходимость разработки конкретных подходов к надлежащей проверке каждого алгоритма ИИ на всех этапах – от входного тестирования на этапе внедрения в конкретном учреждении до регулярного мониторинга эффективности его работы (14,15).
В Москве с 2020 года проводится Эксперимент по использованию инновационных технологий в области компьютерного зрения для анализа медицинских изображений и дальнейшего применения в системе здравоохранения города Москвы (далее ― Эксперимент), в котором на сегодняшний день участвуют уже более 50 ИИ сервисов по 29 диагностическим направлениям (mosmed.ai). На данный момент в Российской Федерации статусом медицинского изделия обладает несколько программных продуктов на основе ТИИ для автоматического анализа цифровых медицинских КТ-изображений головного мозга на предмет наличия внутричерепных кровоизлияний. В апреле 2022 года в Эксперименте начал работать первый подобный диагностический сервис, который долгое время оставался единственным. Целью данного исследования стала оценка его функционирования с момента входа в Эксперимент до длительного мультицентрового клинического мониторинга.
Материалы и методы
Этическое одобрение
Данное ретроспективное исследование выполнено в рамках Эксперимента, дизайн которого был одобрен независимым этическим комитетом Московского рентгенологического общества (выписка из протокола № 2 НЭК МРО РОРР от 20.02.2020), также зарегистрирован на ClinicalTrials (NCT04489992). Исходные данные были получены из Единого радиологического информационного сервиса Единой медицинской информационно-аналитической системы города Москва (ЕРИС ЕМИАС), к которому подключено 173 КТ аппарата 83 столичных медицинских учреждений.
Данные были собраны и проанализированы согласно соответствующим руководящим принципам и правилам, а также анонимизированы перед проведением анализа. Ввиду ретроспективного дизайна получение информированного согласия от пациентов не требовалось.
Искусственный интеллект
Объектом исследования стало программное обеспечение ЦЕЛЬС® (ПО ЦЕЛЬС®, РЗН 2022/18855) ООО «Медицинские скрининг системы» (далее – ИИ-сервис). На этапе подачи заявки на участие в Эксперименте в апреле 2022 года данный ИИ-сервис был обучен на более чем 15 000 анонимизированных диагностических исследованиях , выполненных в двух медицинских учреждениях. Они ранжировались по признаку «норма» и «патология» (ВЧК). В обучающую выборку включались все КТ исследования со следующими типами кровоизлияний: субдуральное, внутримозговое, эпидуральное, субарахноидальное. Объем исследований «с патологией» для обучения составил 60% от общего объема выборки.
Для того, чтобы определить исходные метрики точности работы, ИИ-сервис прошел предварительные клинико-технические испытания (ПКТИ), что было необходимо для участия в Эксперименте. Для проведения ПКТИ был сформирован набор данных, не участвовавший в обучающей выборке, в общем объеме 260 КТ исследований, включающий в себя 130 исследований с «патологией» и 130 исследований с «нормой». По результатам анализа была сформирована таблица с распределением исследований по ложноположительным (ЛП), ложноотрицательным (ЛО), истинно положительным (ИП), истинно отрицательным (ИО) результатам, и производился расчет метрик аналитической валидации. Были получены следующие средние показатели диагностической точности: AUC – 0.89; чувствительность – 0.84; специфичность – 0.74; точность – 0.79.
Входные данные для обработки были представлены КТ ГМ в формате DICOM. Результаты обработки были представлены в трех видах: текстовое описание (DICOM SR), изображения с разметкой патологических областей (DICOM SC) и вероятность наличия патологии в исследовании в целом (числовое значение). Результаты анализа, выполненного ИИ-сервисом, становились доступны в ЕРИС ЕМИАС наравне с исходными изображениями.
Для исследования использовалась бинарная классификация исследований: определялась вероятность наличия патологии (ВЧК) в исследовании. Оценка корректности классификации отдельных типов кровоизлияний, а также точности сегментации и подсчета объемов в настоящем исследовании не проводилась.
Тестирование ИИ-сервиса
Согласно разработанной и апробированной в рамках Эксперимента методологии тестирования и мониторинга ПО на основе ТИИ (16), ИИ-сервис прошел трехэтапное тестирование прежде подключения к основному контуру ЕРИС ЕМИАС для обработки исследований. В рамках этапа самотестирования было успешно проведено тестирование технической совместимости алгоритма с обрабатываемыми данными. В ходе функционального тестирования оценивалась полнота и достаточность инструментария ИИ-сервиса, а также возможность выполнения диагностической задачи. Наконец, калибровочное тестирование предназначалось для оценки клинической производительности и диагностических метрик сервиса.
На этапе функционального тестирования проверка ИИ-сервиса осуществлялась с технической и клинической точек зрения, оценивалось наличие и работоспособность его функционала в соответствии с базовыми диагностическими (БДТ) (17) и базовыми функциональными требованиями (18), которые были разработаны в рамках Эксперимента экспертами НПКЦ ДиТ ДЗМ. Базовые диагностические требования включают обязательное и опциональное содержание ответа ИИ-сервиса, а также форму его представления. Так, в рамках поставленной клинической задачи – диагностики ВЧК на КТ головы – ИИ-сервис должен в обязательном порядке указывать вероятность наличия кровоизлияний. Базовые функциональные требования регламентируют то, какие именно изображения ИИ-сервис должен обрабатывать, что и в каком виде должно быть отражено в его функционале.
После этапа функционального тестирования шел этап калибровочного тестирования, целью которого являлось подтверждение или опровержение заявленных разработчиком метрик работы ИИ-сервиса. Подсчитывалось количество ИП, ИО, ЛП и ЛО ответов в виде четырехпольной таблицы, из чего рассчитывались основные метрики для оценки – площадь под характеристической кривой (Area under the receiver operating characteristic curve, AUROC), чувствительность, специфичность, точность, удельный вес ЛО и ЛП результатов. Кроме того, фиксировалось минимальное, среднее и максимальное время анализа одной КТ. В качестве эталона для показателя AUROC в данной клинической задаче принято значение не менее 0,81; время, затрачиваемое на принятие, обработку исследования и передачу результатов анализа – не более 6,5 минут; удельный вес успешно обработанных исследований – не менее 90% (19). За 18 месяцев было проведено суммарно три калибровочных тестирования на НД, содержащих исследования с балансом классов 1:1. После каждого калибровочного тестирования ИИ-сервиса формировался протокол, в который входили информация о его наименовании, типе, компании-поставщике, а также данные об обработанных исследованиях, полученные метрики и решение о том, соответствует ли данный ИИ-сервис принятым эталонным значениям для допуска к дальнейшей работе в ЕРИС ЕМИАС.
Самотестирование проводилось на предоставленных в свободном доступе обезличенных диагностических исследованиях в формате DICOM (Digital Imaging and Communications in Medicine) с приложением файла в формате Exсel, где дополнительно были указаны модальность, тип диагностической процедуры, производитель и модель диагностического устройства. Функциональное и калибровочное тестирования проводились с использованием т.н. эталонном набора данных (НД) (20) «MosMedData: набор диагностических компьютерно-томографических изображений головного мозга с наличием и отсутствием признаков внутричерепного кровоизлияния» (21). Детализация НД представлена в статье Кремневой Е.И. и соавт. (22). Для функционального тестирования использовалось 5 КТ (2 с патологией, 2 с «нормой» и 1 с артефактом), для калибровочного – 100 КТ (50 с патологией, 50 без патологии).
Клинический мониторинг
ИИ-сервис был подключен на потоковую обработку КТ-исследований головы 28 апреля 2022 года из 56 медицинских организаций стационарной медицинской помощи. Данные о результатах обработки КТ ГМ собирались с апреля 2022 года по сентябрь 2023 года. Общее число обработанных исследований составило 191 928. Каждый месяц для экспертного пересмотра случайным образом выгружались 80 исследований с балансом классов 70:30 (70% с патологией и 30% с нормой по оценке ИИ) (23).
Оценку проводили 2 нейрорентгенолога со стажем более 3 лет. Оценка проводилась по двум главным критериям: соответствие трактовки (заключения) и соответствие локализации (маркировки) патологической зоны (24). Каждый из критериев мог иметь четыре вариации ответов: полное соответствие, частично корректная оценка, ложноположительный (когда сервис обнаружил кровоизлияние там, где его нет) и ложноотрицательный (когда сервис не обнаружил кровоизлияние при его наличии) результаты.
Статистическая обработка
Для обработки полученных данных использовался метод построения и анализа характеристической кривой (ROC-анализ) посредством специально разработанного web-инструмента (25). Минимальный размер набора данных для тестирования ИИ-сервиса в рамках периодического мониторинга составил бы 400 КТ-исследований с минимальной долей патологии 10% в соответствии с результатами эмпирического исследования (26) и фактически оказался больше (1200 КТ ГМ с долей патологии 48.3%), что соответствовало нашим задачам. Для ИИ-сервиса были рассчитаны метрики диагностической точности: чувствительность (Se), специфичность (Sp), точность (Ac), площадь под характеристической кривой (AUROC). Ввиду наличия бинарного ответа от сервиса расчет AUROC проводился, исходя из полученных значений Se и Sp. При расчете метрик за ложноположительный принимался ответ сервиса о наличии ВЧК в исследовании при отсутствии данной патологии в исследовании по мнению врача-эксперта, за ложноотрицательный – ответ сервиса об отсутствии ВЧК в исследовании при его наличии по мнению врача-эксперта. Общие метрики ИИ-сервиса, представленные в результатах, рассчитаны с 95% доверительным интервалом (ДИ) методом биномиального теста, так как исследуемые выборки содержат бинаризованные значения. Для оценки наличия и характера взаимосвязи между значением диагностических метрик и временем работы сервиса был использован коэффициент корреляции Пирсона. Для сопоставления значений диагностических метрик между калибровочными тестированиями был использован тест Манна-Уитни. При сопоставлении использовалась односторонняя версия теста с альтернативной гипотезой «медианное значение метрики до третьего калибровочного тестирования меньше, чем после него». Иначе, мы ожидаем статистически значимый прирост значения метрики после третьего калибровочного тестирования. Уровень значимости принятия статистических гипотез был равным 0.05.
Результаты
Калибровочное тестирование
Количество исследований, не прошедших обработку по причине технической ошибки «сбой отправки исследования на тестирование» составило 9, 2 и 1 на первом, втором и третьем этапах калибровочного тестирования соответственно. По результатам анализа корректно обработанных исследований были построены характеристические кривые, представленные на Рисунке 1.
В таблице 1 представлены численные метрики, которые были получены в ходе первого (КТест 1), второго (КТест 2) и третьего (КТест 3) калибровочных тестирований .
Таблица 1. Метрики ИИ-сервиса, предназначенного для автоматического анализа цифровых медицинских КТ-изображений головного мозга на предмет наличия внутричерепных кровоизлияний, которые были получены по результатам трех калибровочных тестирований.
| Месяц рабо-ты |
Вер-сия ИИ-сер-виса | AUC (ДИ, 95%) | Чувст-витель-ность (ДИ, 95%) | Специ-фич-ность (ДИ, 95%) | Точ-ность (ДИ, 95%) | Уд.вес ЛО (%) | Уд.вес ЛП (%) | Время обра-ботки (сек) |
КТест 1 | 0 | 0.6.1 | 96 (92; 100) | 89 (80; 98) | 96 (90; 100) | 92 (87; 98) | 11 | 4 | 73 |
КТест 2 | 3 | 0.7.1 | 98 (96; 99) | 90 (81; 98) | 98 (94; 100) | 94 (89, 99) | 10 | 2 | 73 |
КТест 3 | 7 | 0.8.3 | 96 (91; 99) | 84 (73, 94) | 98 (94; 100) | 91 (85; 97) | 16 | 2 | 85 |
Необходимость повторных калибровочных тестирований была обусловлена доработками ПО, при котором его метрики работы могли ухудшиться. Такие тестирования происходили после каждой доработки, которая сопровождалась изменениями ядра ИИ-сервиса. Однако во всех трех случаях отличия в метриках оказались статистически незначимыми (p>0.05).
Клинический мониторинг
Результаты клинического мониторинга представлены в таблице, для информации включены результаты калибровочных тестирований.
Таблица 21. Матрица ошибок ИИ-сервиса и метрики по каждому месяцу.
Месяц | Чувствительность (%) | Специфичность (%) | Точность (%) | ROC AUC (%) | TP | TN | FP | FN |
КТест 1 | 89 | 96 | 92 | 96 |
|
|
|
|
1 | 100.0 | 39.4 | 50.0 | 93.1 | 14 | 26 | 40 | 0 |
2 | 100.0 | 46.0 | 57.5 | 94.7 | 17 | 29 | 34 | 0 |
3 | 100.0 | 42.2 | 53.7 | 99.4 | 16 | 27 | 37 | 0 |
КТест 2 | 90 | 98 | 94 | 98 |
|
|
|
|
4 | 97.5 | 82.5 | 90.0 | 94,6 | 39 | 33 | 7 | 1 |
5 | 93.5 | 61.2 | 73.8 | 86,2 | 29 | 30 | 19 | 2 |
6 | 94.6 | 72.1 | 82.5 | 90,2 | 35 | 31 | 12 | 2 |
7 | 97.1 | 66.7 | 80.0 | 90,0 | 34 | 30 | 15 | 1 |
КТест 3 | 84 | 98 | 91 | 96 |
|
|
|
|
8 | 100.0 | 75.6 | 87.5 | 93.9 | 39 | 31 | 10 | 0 |
9 | 95.3 | 79.5 | 87.8 | 92.8 | 41 | 31 | 8 | 2 |
10 | 100.0 | 71.1 | 83.8 | 92.8 | 35 | 32 | 13 | 0 |
11 | 100.0 | 68.9 | 82.5 | 92.2 | 35 | 31 | 14 | 0 |
12 | 97.6 | 76.9 | 87.5 | 93.1 | 40 | 30 | 9 | 1 |
13 | 100.0 | 78.0 | 88.8 | 94.5 | 39 | 32 | 9 | 0 |
14 | 97.6 | 73.7 | 86.3 | 92.2 | 41 | 28 | 10 | 1 |
15 | 97.4 | 83.3 | 90.0 | 94.7 | 37 | 35 | 7 | 1 |
16 | 95.6 | 82.9 | 90.0 | 93.8 | 43 | 29 | 6 | 2 |
17 | 94.4 | 77.3 | 85.0 | 91.7 | 34 | 34 | 10 | 2 |
18 | 100.0 | 88.9 | 95.0 | 97.2 | 44 | 32 | 4 | 0 |
Из представленных данных следует, что ИИ-сервис стабилизировал свои показатели после третьего месяца. Первые 3 месяца (с апреля 2022 года по июнь 2022 года) были периодом апробации, в ходе которого разработчик дорабатывал свое решение. В дальнейший анализ этот период было принято решение не включать.
Общая схема проведения клинического мониторинга сервиса представлена на Рисунке 2.
С момента стабилизации работы ИИ-сервиса было суммарно оценено 1200 нативных КТ головы (рис. 2). Средний возраст пациентов составил 61.2 года (± 18.6 лет), из них 39 % женщин. По результатам экспертной оценки (Ground Truth) признаки ВЧК содержали 580 КТ (48,3 %). Результаты расчета диагностических метрик за весь период с 3 по 18 месяцы включительно представлены на Рисунке 3. По результатам бинарной классификации исследований ИИ-сервисом на предмет наличия ВЧК диагностические метрики составили: Se 97.4 % (95.8 – 98.5)% , Sp 75.4% (71.8 – 78.7)%, Ac 86.0% (83.9 – 87.9)%, AUROC 92.6% (86.3 – 98.8)%.
По результатам корреляционного анализа значения диагностических метрик и времени работы сервиса наблюдается статистически значимая умеренная положительная корреляция для Sp и Ac (для обеих метрик были получены близкие значения Pearson’s rho = 0.5 для p-value = 0.04), AUROC (Pearson’s rho = 0.6 для p-value = 0.03). Для Se статистически значимой взаимосвязи между значением метрики и длительностью работы сервиса не наблюдалось.
Результаты сопоставления значений за период от второго до третьего и после третьего калибровочных тестирований демонстрирует наличие статистически значимого прироста величины только для Se и Sp. P-value составило 0.04 для обеих метрик.
Дополнительно были оценены «уточненные» метрики диагностической точности. Для их расчета дополнительно было проверено наличие не только факта обнаружения патологии, но и характер ее локализации, а также соответствие описания врача ответу сервиса. В этом случае истинно положительным считался любой ответ, в котором присутствовало совпадение по локализации или описанию детектированной патологии. Абсолютные значения оценок ИИ-сервиса по данным клинических мониторингов представлены в таблице 1 дополнительных материалов (supl A). Полное соответствие по разметке и описанию в случаях наличия ВЧК было достигнуто в 162 КТ (28.5 %). Соответственно, разного рода расхождения были найдены в 404 КТ (71.5%). Результаты для уточненных (adjusted) метрик были следующими: Se 26.6% (22.9-30.4)%; Sp 73.8% (70.0-77.4)%; Ac 50.1% (47.1-53.0)% и AUROC 49.6% (44.1-55.1)%.
Неточности в описании были обнаружены в 61 кейсе. Это те случаи, где ИИ-сервис верно идентифицировал наличие патологии на снимках, но либо пропустил одно из кровоизлияний в случае их множественности, либо неверно определил его тип. Неточности разметки были отмечены в 64 КТ. К ним относились те случаи, где ИИ-сервис некорректно сегментировал части кровоизлияний. Однако наиболее часто неточность проявлялась одновременно и в описаниях, и в разметке (279 КТ).
Одним из наиболее частых примеров частично корректного срабатывания можно назвать случаи, когда при множественных кровоизлияниях выделялся один тип кровоизлияния, но пропускался другой. Так, на рис. 4А слева пропущено внутримозговое кровоизлияние (ВМК) в левом полушарии, а на рис. 4С слева ИИ-сервис корректно сегментировал ВМК в левом полушарии, но не отметил внутрижелудочковое кровоизлияние (ВЖК) в правом полушарии, а также межполушарное субарахноидальное кровоизлияние (САК) и САК по бороздам в обоих полушариях. Также частым случаем некорректных срабатываний является частичная сегментация кровоизлияния с ошибочным определением его типа – на рис. 4С справа представлено субдуральное кровоизлияние (СДК), которое ИИ-сервис обозначил как САК. Гораздо реже среди примеров частично корректного срабатывания можно отметить полностью корректную сегментацию патологической зоны кровоизлияния, но неверное определение его/их типа (рис. 4В, справа – область ВМК отнесена к СДК, слева – СДК отнесено к САК).
Всего было отмечено 152 ложноположительных результата. Наиболее частыми причинами ЛП срабатываний ИИ-сервиса являлись сегментации магистральных артерий, венозных синусов и частично кальцифицированных оболочек мозга (рис. 5А).
ИИ-сервис пропустил патологию в 14 КТ ГМ. Среди самых частых ложноотрицательных срабатываний имели место пропуски САК – 8 случаев (рис. 5В, в центре и справа), а также реже встречались пропуски ВЖК – 2 случая (рис. 5В, слева). Также в 2 случаях не было найдено ВМК, в 1 случае – СДК, в 1 случае – ЭДК.
Обсуждение
Представленное исследование не является первым среди клинической апробации ИИ-сервисов обнаружения ВЧК по данным бесконтрастной компьютерной томографии головного мозга. Однако, его отличительной особенностью является длительность (18 месяцев) и мультицентровой характер (56 стационаров, 248 врачей-рентгенологов, составивших первичное заключение).
В нашем исследовании в рамках клинических мониторингов отмечается статистически значимый прирост медианных значений для двух из четырех основных диагностических метрик. Причем, следует отметить различную величину прироста. Изначально довольно высокие показатели Se (медиана 95.8%) со временем наблюдения статистически значимо (p-value = 0.04) повысились (медиана 97.4%). Для Sp были характерны сравнительно низкие начальные значения (медиана 69.4%) и статистически значимый (p-value = 0,04) прирост (медиана 76.2%). Для Ac и AUROC статистически значимых изменений не наблюдалось (p-value составило 0.1 для обеих метрик).
Стоит отметить различия в значениях метрик, полученных в ходе калибровочных тестирований и клинических мониторингов. Расчет метрик при калибровочных тестированиях проводился с использованием индекса Юдена при установленном оптимальном пороге в 75%. Отмечается статистически значимая положительная корреляция между временем работы сервиса и Sp, Ac, AUROC (Pearson’s rho в диапазоне 0.5 – 0.6), при этом статистически значимый прирост значения метрики выявлен только для Sp и Se.
Внутричерепное кровоизлияние – неотложная патология, в большинстве случаев требующая быстрого реагирования и повышающая риски ухудшения состояния пациентов. Поэтому представляется важной такая настройка ИИ-сервиса, которая была бы максимально чувствительной к патологии в случае ее присутствия, чтобы внимание врача в первую очередь обращалось к пациентам с подозрением на ВЧК. Однако автоматическая подстройка порога для оптимизации всех параметров полезна для того, чтобы при этом одновременно критически не снижалась специфичность.
В рамках нескольких одноцентровых исследований продемонстрирована картина довольно высокой специфичности, колеблющейся в диапазоне 91-98%, однако их чувствительность часто оказывалась несколько ниже, в диапазоне 81-94% (27-30).
В единичных многоцентровых исследованиях, сопоставимых нашему по условиям и объему, также обращают на себя внимание более низкая чувствительность и более высокая специфичность. McLouth et al., использовавшие коммерчески доступный ИИ-сервис CINA v1.0 (Avicenna.ai, Ла-Сьота, Франция), сообщают о чувствительности 91.4% и специфичности 97.5%, полученных на выборке 814 человек с долей патологии 31% (31). Похожие метрики получили Kundisch et al. (чувствительность 87.6%, специфичность 92.8%), но на выборке 4946 человек с долей патологии 5%, используя также коммерчески доступный ИИ-сервис AIDOC (Тель-Авив, Израиль) (32). Два крупных недавних исследования Del Gaizo et al. (33) и Pettet et al. (34) с выборками 58 321 (доля патологии 2.7%) и 1315 (доля патологии 8.5%), проведенные также с коммерческими ИИ-сервисами (CINA v1.0 и qER v2.0), предоставили следующие данные по чувствительности и специфичности: 75.6% и 92.1%; 85.7% и 94.3% соответственно.
В систематическом обзоре (35), направленном на обобщение сведений о диагностической точности моделей ИИ для экстренной КТ ГМ в рамках внешней клинической апробации, сообщается о том, что большинство коммерчески доступных ИИ-сервисов имели, как правило, более низкую чувствительность и более низкую положительную прогностическую значимость (PPV), которая отражает количество ложноположительных ответов. Это говорит об их более слабой обобщаемости и не совсем подходит для сценария сортировки и приоритизации рабочего списка посредством пометки ВЧК-положительных сканов из-за более высокого риска «утомления бдительности». В нашем исследовании мы получили высокие показатели чувствительности, однако специфичность на уровне 75.4% соотносится с довольно большим количеством ложноположительных результатов и говорит о вероятной дополнительной нагрузке на внимание врача. В некоторых исследованиях (30,36) более низкие PPV интерпретировались как отражение естественного эффекта более низкой распространенности целевого состояния. Приемлемый уровень ЛП ответов ИИ-сервиса на потоке требует дальнейшего изучения.
Об ограничениях в использовании всего функционала ИИ-сервиса (корректное определение типов кровоизлияний и их локализация) говорят довольно низкие (за исключением специфичности) значения уточненных метрик: Se 26.6%, Sp 73.8%, Ac 50.1% и AUROC 49.6%. Тем не менее нужно отметить, что данные метрики были получены при учете только полного совпадения ответа ИИ-сервиса с мнением врача-эксперта и по разметке, и по интерпретации типа кровоизлияния. Общие же показатели метрик (Se 97.4 %, Sp 75.4%, Ac 86.0%, AUROC 92.6%) оказались, в целом, достаточно высоки – некоторые (например, чувствительность) даже выше, чем описано в литературе.
Некоторые авторы отмечают превосходную согласованность разметки объемов патологических областей плотности вследствие ВЧК в головном мозге между коммерчески доступным алгоритмом ИИ и полуавтоматической разметкой. Однако Schmitt et al. отмечают, что эффективность этого алгоритма на уровне чувствительности 91% и специфичности 89% (при насыщенной патологиями выборке на уровне 50%) может дать врачам второе мнение, но не позволяет использовать алгоритм в качестве самостоятельного инструмента, с чем согласны другие авторы (37). Наши данные демонстрируют, что полное совпадение описаний и разметки патологических областей, сделанных исследуемым ИИ-сервисом, с врачами не достигается даже в трети всех случаев с патологией за счет частой сочетанности разных типов кровоизлияний. Поэтому его можно использовать в качестве помощника, указывающего на наличие патологии, но не в качестве полноценной СППВР, помогающей проводить углубленную диагностику типов кровоизлияний и их объемов.
Постоянная доработка ИИ-сервисов и адаптация к изменяющимся клиническим условиям необходима и технически возможна (38). Использование в качестве основы глубоких сверточных нейронных сетей позволяет этому ПО эффективнее извлекать и анализировать сложные признаки изображений, которые недоступны глазу человека, сопоставляя их в рамках отличной от человеческой логики, что действительно способно приводить к повышению точности диагностики (32,39). Обучение на новых данных может приводить к улучшению производительности с течением времени (40), и в нашем исследовании с периодом наблюдения более года это было наглядно продемонстрировано. Как и факт, что требуется постоянный, желательно ежемесячный контроль за производительностью на независимых клинических данных (28) и та обратная связь от врачей, которая поможет разработчикам понять, какие еще дополнительные обучающие данные нужны для улучшения диагностических показателей и как настроить пороговые значения для оптимизации баланса между чувствительностью и точностью (39).
Есть и еще одна причина, по которой непрерывный клинический мониторинг качества работы ИИ-сервиса необходим. Наши данные показывают, что он гораздо более объективен, чем прохождения тестирований в лабораторных условиях даже на внешних валидационных данных (в нашем случае – калибровочных тестирований). Кроме того, не очень высокий показатель специфичности должен нацеливать врачей на аккуратность использования ИИ-сервиса в реальных клинических условиях без должного контроля из-за возможного негативного влияния ЛП результатов на увеличение частоты госпитализаций или сценарии неоправданных хирургических процедур (41). Одновременно с этим высокая чувствительность дает возможность с высокой точностью исключать кровотечения в случае острого ишемического инсульта, что определяет пригодность пациента для проведения тромболитической терапии (42). Таким образом, оптимальное использование ИИ рентгенологами может быть дополнено пониманием сценариев, в которых ИИ, вероятно, будет генерировать неточные выходные данные. Помимо этого, отличным способом объективизации корректности разметки можно считать подсчет ИИ-сервисом объемов кровоизлияний, если это предусмотрено в его функционале. Данную задачу необходимо рассматривать в рамках дальнейших исследований.
Ограничения
Наше исследование имеет несколько ограничений. Во-первых, мы не анализировали диагностические метрики ИИ-сервиса по каждому типу кровоизлияний и точность площади маркировки патологических областей. Наша концепция обсервационного ретроспективного мультицентрового анализа направлена на понимание изменений в его производительности с течением времени на основании фактической клинической работы на потоке. Во-вторых, наша выборка для клинического мониторинга была насыщена ВЧК (~50%) и не соответствовала реальной распространенности патологии в популяции (~8-12%), что могло способствовать увеличению количества ЛП результатов и снижению специфичности по сравнению с теми метриками, которые были заявлены производителем. Это подчеркивает необходимость стандартизации клинически ориентированного обучения и проверки ИИ, в соответствующих условиях. Впрочем, сохраняющаяся высокая чувствительность даже при насыщении выборки случаями с патологией говорит о хорошей способности ИИ-сервиса не пропускать критически значимые патологические находки, что в аспекте неотложной медицинской помощи следует рассматривать как преимущество.
Заключение
В ходе 18-месячного ретроспективного наблюдения за работой ИИ-сервиса для обнаружения ВЧК при неконтрастных КТ-исследованиях головы в 56 стационарах Москвы удалось продемонстрировать многообещающие результаты с очень высокой чувствительностью (Se 97.4 %) и разумной специфичностью (Sp 75.4%), которые с течением времени улучшались. Однако обращают на себя внимание низкие значения уточненных метрик (Se 26.6%, Ac 50.1%), что говорит о высокой степени расхождения между рентгенологами и ИИ-сервисом в оценке патологии (не все патологические зоны сегментируются, неверно обозначаются типы ВЧК и тд.). Рентгенологам необходимо понимать «поведение» ИИ в клинической практике и помнить, что положительный результат не всегда подразумевает наличие кровоизлияния и что найденное кровоизлияние не всегда может быть единственным и быть сегментировано верно. Разработчикам подобного ПО необходимо работать над снижением количества ЛП ответов и улучшением качества работы ИИ-сервиса, чтобы его функции были клинически полезными. Тем не менее, текущая конфигурация позволяет исключать кровоизлияние с очень высокой вероятностью, что может иметь пользу для неотложной сортировки пациентов в приемных отделениях.
Дополнительная информация
Источник финансирования. Данная статья подготовлена авторским коллективом в рамках НИР «Научные методологии устойчивого развития технологий искусственного интеллекта в медицинской диагностике», (№ ЕГИСУ: № 123031500004-5) в соответствии с Приказом от 22.12.2023 г. № 1258 "Об утверждении государственных заданий, финансовое обеспечение которых осуществляется за счет средств бюджета города Москвы государственным бюджетным (автономным) учреждениям подведомственным Департаменту здравоохранения города Москвы, на 2024 год и плановый период 2025 и 2026 годов" Департамента здравоохранения города Москвы.
Funding source. This paper was prepared by a team of authors as a part of the research project “Evidence-based methodologies for sustainable development of artificial intelligence in medical imaging”, (EGISU No. 123031500004-5) in accordance with Order No. 1258 dated December 22, 2023: "On approval of state assignments funded from the Moscow city budget to state budgetary (autonomous) institutions subordinated to the Moscow Healthcare Department for 2024 and the planning period of 2025 and 2026.
Информированное согласие на участие в исследовании. Не требовалось
Patients’ consent. not required
Конфликт интересов. Авторы декларируют отсутствие явных и потенциальных конфликтов интересов, связанных с публикацией настоящей статьи.
Competing interests. The authors declare that they have no competing interests.
Вклад авторов. Все авторы подтверждают соответствие своего авторства международным критериям ICMJE. Наибольший вклад распределён следующим образом: А.Н. Хоружая – сбор и анализ литературных источников, тестирование ИИ-сервиса, анализ данных мониторингов КТ ГМ, написание текста и редактирование статьи; К.М. Арзамасов – концепция исследования, организация тестирования ИИ-сервиса и сбор данных для мониторинга, редактирование статьи; М.Р. Коденко – статистическая обработка данных, написание и редактирование статьи; Е.И. Кремнева – обзор литературы, анализ данных мониторингов КТ ГМ, редактирование статьи; Д.В. Буренчев – концепция исследования, анализ литературы, редактирование статьи.
Author contribution. All authors confirm that their authorship fulfils the ICMJE international criteria. The greatest contribution is distributed as follows: A.N. Khoruzhaya - collection and analysis of literature sources, testing of the AI service, analysis of data from CT monitoring, writing and editing of the article; K.M. Arzamasov - research concept, organisation of testing of the AI service and collection of data for monitoring, editing; M.R. Kodenko - statistical data processing, writing and editing; E.I. Kremneva - literature review, analysis of data from CT monitoring, editing; D.V. Burenchev - research concept, literature analysis, editing.
Благодарности. Авторы выражают благодарность главному научному сотруднику НПКЦ ДиТ д.м.н. А.В. Петряйкину за помощь в проведении исследования.
Acknowledgments. The authors are grateful to leading researcher of Moscow Center for Diagnostics and Telemedicine, MD PhD Alexey V. Petraikin for help in this study.
1 Серым цветом обозначены данные, исключенные из дальнейшего анализа
Рис. 1. Характеристические кривые калибровочных тестирований ИИ-сервиса, предназначенного для автоматического анализа цифровых медицинских КТ-изображений головного мозга на предмет наличия внутричерепных кровоизлияний: А - первое, В – второе, С – третье.
Fig. 1. Characteristic curves of calibration tests of the AI service designed for automatic analysis of digital medical CT images of the brain for the presence of intracranial haemorrhages: A - first, B - second, C - third.
Рис. 2. Схема оценки КТ-исследований головного мозга (КТ ГМ) при экспертной оценке в рамках клинического мониторинга. ВЧК+ – наличие патологии, ВЧК- – отсутствие патологии.
Fig. 2. Schematic diagram of brain CT studies (CT GM) evaluation during expert assessment in the framework of clinical monitoring. ICH+ – presence of pathology, ICH- – absence of pathology.
Рис. 3. Динамика диагностических метрик работы ИИ-сервиса относительно результатов двух калибровочных тестирований. Ось абсцисс – значения метрик, ось ординат – месяцы. Пунктиром обозначены результаты метрик, полученные в ходе калибровочных тестирований.
Fig. 3. Dynamics of diagnostic metrics of AI service performance in relation to the results of two calibration tests. Abscissa axis - metrics values, ordinate axis - months. The dotted line indicates the results of the metrics obtained during the calibration tests.
Рис. 4. Примеры частично корректных срабатываний ИИ-сервиса. А – корректное определение типа кровоизлияния, некорректная их сегментация, В – корректная сегментация областей кровоизлияния, неверное определение их типов, С – частичное выделение одних кровоизлияний и пропуск других, некорректные как сегментация, так и определение типа.
Fig. 4. Examples of partially correct triggers of the AI service. A - correct identification of haemorrhage type, incorrect segmentation, B - correct segmentation of haemorrhage areas, incorrect identification of their types, C - partial selection of some haemorrhages and omission of others, both segmentation and type identification are incorrect.
Рис. 5. Примеры ложноположительных (А) и ложноотрицательных (В) срабатываний ИИ-сервиса.
Figure 5. Examples of false positives (A) and false negatives (B) of the AI service.
About the authors
Anna Khoruzhaya
State Budget-Funded Health Care Institution of the City of Moscow "Research and Practical Clinical Center for Diagnostics and Telemedicine Technologies of the Moscow Health Care Department"
Author for correspondence.
Email: KhoruzhayaAN@zdrav.mos.ru
ORCID iD: 0000-0003-4857-5404
SPIN-code: 7948-6427
Junior Researcher, Department of Innovative Technologies
Russian FederationKirill M. Arzamasov
Scientific and Practical Clinical Center for Diagnostics and Telemedicine Technologies of the Moscow Department of Health
Email: ArzamasovK@zdrav.mos.ru
ORCID iD: 0000-0001-7786-0349
M.D., Cand. Sci. (Med.), Head of the Depart., Depart. of Medical Informatics, Radiomics and Radiogenomics
Russian Federation, Moscow, RussiaMaria R. Kodenko
Moscow Center for Diagnostics and Telemedicine; Bauman Moscow State Technical University
Email: KodenkoM@zdrav.mos.ru
ORCID iD: 0000-0002-0166-3768
SPIN-code: 5789-0319
Russian Federation, Moscow; Moscow
Elena I. Kremneva
Scientific and Practical Clinical Center for Diagnostics and Telemedicine Technologies
Email: KremnevaEI@zdrav.mos.ru
ORCID iD: 0000-0001-9396-6063
SPIN-code: 8799-8092
MD, Cand. Sci. (Med.)
Russian Federation, MoscowDmitry V. Burenchev
Research and Practical Clinical Center for Diagnostics and Telemedicine Technologies
Email: BurenchevDV@zdrav.mos.ru
ORCID iD: 0000-0003-2894-6255
SPIN-code: 2411-3959
MD, Dr. Sci. (Med.), Chief Researcher
Russian Federation, MoscowReferences
- van Asch CJ, Luitse MJ, Rinkel GJ, et al. Incidence, case fatality, and functional outcome of intracerebral haemorrhage over time, according to age, sex, and ethnic origin: a systematic review and meta-analysis. Lancet Neurol. 2010;9(2):167-76. doi: 10.1016/S1474-4422(09)70340-0.
- Li X, Zhang L, Wolfe CDA, Wang Y. Incidence and Long-Term Survival of Spontaneous Intracerebral Hemorrhage Over Time: A Systematic Review and Meta-Analysis. Front Neurol. 2022;13:819737. doi: 10.3389/fneur.2022.819737.
- Hostettler IC, Seiffge DJ, & Werring DJ. Intracerebral hemorrhage: an update on diagnosis and treatment. Expert Review of Neurotherapeutics. 2019;19(7): 679–694. doi: 10.1080/14737175.2019.1623671
- Elliott J, Smith M. The acute management of intracerebral hemorrhage: a clinical review. Anesth Analg. 2010;110(5):1419-27. doi: 10.1213/ANE.0b013e3181d568c8.
- Vasilev YA, Tyrov IA, Vladzymyrskyy AV, et al. Double-reading mammograms using artificial intelligence technologies: A new model of mass preventive examination organization. Digital Diagnostics. 2023;4(2):93-104. doi: 10.17816/DD321423
- Kudryavtsev ND, Kozhikhina DD, Goncharova IV, et al. The impact of artificial intelligence on double reading of mammograms. Russian Journal of Preventive Medicine. 2024;27(5):32–37. (In Russ.) doi: 10.17116/profmed20242705132
- Arbabshirani MR, Fornwalt BK, Mongelluzzo GJ, et al. Advanced machine learning in action: identification of intracranial hemorrhage on computed tomography scans of the head with clinical workflow integration. NPJ Digit Med. 2018;1:9. doi: 10.1038/s41746-017-0015-z
- Seyam M, Weikert T, Sauter A, et al. Utilization of Artificial Intelligence-based Intracranial Hemorrhage Detection on Emergent Noncontrast CT Images in Clinical Workflow. Radiol Artif Intell. 2022;4(2):e210168. doi: 10.1148/ryai.210168.
- Davis MA, Rao B, Cedeno PA, Saha A, Zohrabian VM. Machine Learning and Improved Quality Metrics in Acute Intracranial Hemorrhage by Noncontrast Computed Tomography. Curr Probl Diagn Radiol. 2022;51(4):556-561. doi: 10.1067/j.cpradiol.2020.10.007.
- O'Neill TJ, Xi Y, Stehel E, et al. Active Reprioritization of the Reading Worklist Using Artificial Intelligence Has a Beneficial Effect on the Turnaround Time for Interpretation of Head CT with Intracranial Hemorrhage. Radiol Artif Intell. 2020;3(2):e200024. doi: 10.1148/ryai.2020200024
- Yeo M, Tahayori B, Kok HK, et al. Review of deep learning algorithms for the automatic detection of intracranial hemorrhages on computed tomography head imaging. J Neurointerv Surg. 2021;13(4):369-378. doi: 10.1136/neurintsurg-2020-017099
- Smorchkova AK, Khoruzhaya AN, Kremneva EI, Petryaikin AV. Machine learning technologies in CT-based diagnostics and classification of intracranial hemorrhages. Burdenko's Journal of Neurosurgery. 2023;87(2):85‑91. doi: 10.17116/neiro20238702185
- Yu KH, Kohane IS. Framing the challenges of artificial intelligence in medicine. BMJ Qual Saf. 2019;28(3):238-241. doi: 10.1136/bmjqs-2018-008551
- Allen B, Dreyer K, Stibolt R Jr, et al. Evaluation and Real-World Performance Monitoring of Artificial Intelligence Models in Clinical Practice: Try It, Buy It, Check It. J Am Coll Radiol. 2021;18(11):1489-1496. doi: 10.1016/j.jacr.2021.08.022
- Recht MP, Dewey M, Dreyer K, et al. Integrating artificial intelligence into the clinical practice of radiology: challenges and recommendations. Eur Radiol. 2020;30(6):3576-3584. doi: 10.1007/s00330-020-06672-5
- Vasiliev YA, Vlazimirsky AV, Omelyanskaya OV, et al. Methodology for testing and monitoring artificial intelligence-based software for medical diagnostics. Digital Diagnostics. 2023;4(3):252-267. doi: 10.17816/DD321971
- Базовые диагностические требования к результатам работы ИИ-сервисов. Режим доступа: https://mosmed.ai/documents/226. Дата обращения: 13.12.2024
- Базовые функциональные требования к результатам работы ИИ-сервисов. Режим доступа: https://mosmed.ai/documents/218/. Дата обращения: 13.12.2024
- Morozov SP, Vladzimirsky AV, Klyashtornyy VG, et al. Clinical acceptance of software based on artificial intelligence technologies (radiology). Moscow: Best practices in medical imaging, 2019.
- Морозов СП, Владзимирский АВ, Андрейченко АЕ, и др. Регламент подготовки наборов данных с описанием подходов к формированию репрезентативной выборки данных (Серия «Лучшие практики лучевой и инструментальной диагностики»; Часть 1). Москва: Научно-практический клинический центр диагностики и телемедицинских технологий Департамента здравоохранения города Москвы, 2022.
- Certificate of the state registration of the database RU 2022620559/ 16.03.2022. Morozov SP, Pavlov NA, Petraikin AV, et al. MosMedData: Nabor diagnosticheskih komp’jutenro-tomograficheskih izobrazhenij golovnogo mozga s nalichiem I otsutstviem priznakov vnutricherepnogo krovoizlijanija. Available from: https://www.elibrary.ru/item.asp?id=48137428. Accessed: Dec 13, 2024. (In Russ.)
- Kremneva EI, Smorchkova AK, Khoruzhaya AN, et al. Features of the formation of data sets for services with artificial intelligence in neuroimaging on the example of creating a data set with CT-images of the brain with signs of haemorrhage. Vrach i informatsionnye tehnologii. 2023;4:42-53. (In Russ). doi: 10.25881/18110193_2023_4_42.
- Chetverikov SF, Arzamasov KM, Andreichenko AE, et al. Approaches to Sampling for Quality Control of Artificial Intelligence in Biomedical Research. Sovremennye tehnologii v medicine. 2023;15(2):19 doi: 10.17691/stm2023.15.2.02
- Васильев ЮА, Владзимирский АВ, Омелянская ОВ, и др. Оценка зрелости технологий искусственного интеллекта для здравоохранения: методические рекомендации (Серия «Лучшие практики лучевой и инструментальной диагностики»). Москва: Научно-практический клинический центр диагностики и телемедицинских технологий Департамента здравоохранения города Москвы, 2023.
- Web-инструмент для построения и анализа характеристической кривой (ROC-анализ). Режим доступа: https://roc-analysis.mosmed.ai/. Дата обращения: 13.12.2024
- Kodenko МR, Bobrovskaya ТМ, Reshetnikov RV, et al. Empirical approach to sample size estimation for testing of AI algorithms. Doklady Mathematics. 2024;520(2):71-84. doi: 10.31857/S2686954324700395
- Salehinejad H, Kitamura J, Ditkofsky N, et al. A real-world demonstration of machine learning generalizability in the detection of intracranial hemorrhage on head computerized tomography. Sci Rep. 2021;11(1):17051. doi: 10.1038/s41598-021-95533-2.
- Zia A, Fletcher C, Bigwood S, et al. Retrospective analysis and prospective validation of an AI-based software for intracranial haemorrhage detection at a high-volume trauma centre. Sci Rep. 2022;12(1):19885. doi: 10.1038/s41598-022-24504-y.
- Ginat DT. Analysis of head CT scans flagged by deep learning software for acute intracranial hemorrhage. Neuroradiology. 2020;62(3):335-340. doi: 10.1007/s00234-019-02330-w.
- Voter AF, Meram E, Garrett JW, Yu JJ. Diagnostic Accuracy and Failure Mode Analysis of a Deep Learning Algorithm for the Detection of Intracranial Hemorrhage. J Am Coll Radiol. 2021;18(8):1143-1152. doi: 10.1016/j.jacr.2021.03.005.
- McLouth J, Elstrott S, Chaibi Y, et al. Validation of a Deep Learning Tool in the Detection of Intracranial Hemorrhage and Large Vessel Occlusion. Front Neurol. 2021;12:656112. doi: 10.3389/fneur.2021.656112.
- Kundisch A, Hönning A, Mutze S, et al. Deep learning algorithm in detecting intracranial hemorrhages on emergency computed tomographies. PLoS One. 2021;16(11):e0260560. doi: 10.1371/journal.pone.0260560.
- Del Gaizo AJ, Osborne TF, Shahoumian T, Sherrier R. Deep Learning to Detect Intracranial Hemorrhage in a National Teleradiology Program and the Impact on Interpretation Time. Radiol Artif Intell. 2024;6(5):e240067. doi: 10.1148/ryai.240067.
- Pettet G, West J, Robert D, et al. A retrospective audit of an artificial intelligence software for the detection of intracranial haemorrhage used by a teleradiology company in the United Kingdom. BJR Open. 2024;6(1):tzae033. doi: 10.1093/bjro/tzae033.
- Mäenpää SM, Korja M. Diagnostic test accuracy of externally validated convolutional neural network (CNN) artificial intelligence (AI) models for emergency head CT scans - A systematic review. Int J Med Inform. 2024;189:105523. doi: 10.1016/j.ijmedinf.2024.105523
- Eldaya RW, Kansagra AP, Zei M, et al. Performance of Automated RAPID Intracranial Hemorrhage Detection in Real-World Practice: A Single-Institution Experience. J Comput Assist Tomogr. 2022;46(5):770-774. doi: 10.1097/RCT.0000000000001335.
- Schmitt N, Mokli Y, Weyland CS, et al. Automated detection and segmentation of intracranial hemorrhage suspect hyperdensities in non-contrast-enhanced CT scans of acute stroke patients. Eur Radiol. 2022;32(4):2246-2254. doi: 10.1007/s00330-021-08352-4.
- Warman R, Warman A, Warman P, et al. Deep Learning System Boosts Radiologist Detection of Intracranial Hemorrhage. Cureus. 2022;14(10):e30264. doi: 10.7759/cureus.30264.
- Buchlak QD, Tang CHM, Seah JCY, et al. Effects of a comprehensive brain computed tomography deep learning model on radiologist detection accuracy. Eur Radiol. 2024;34(2):810-822. doi: 10.1007/s00330-023-10074-8.
- Ngiam KY, Khor IW. Big data and machine learning algorithms for health-care delivery. Lancet Oncol. 2019;20(5):e262-e273. doi: 10.1016/S1470-2045(19)30149-4.
- Kiefer J, Kopp M, Ruettinger T, et al. Diagnostic Accuracy and Performance Analysis of a Scanner-Integrated Artificial Intelligence Model for the Detection of Intracranial Hemorrhages in a Traumatology Emergency Department. Bioengineering (Basel). 2023;10(12):1362. doi: 10.3390/bioengineering10121362.
- Pettet G, West J, Robert D, et al. A retrospective audit of an artificial intelligence software for the detection of intracranial haemorrhage used by a teleradiology company in the United Kingdom. BJR Open. 2024;6(1):tzae033. doi: 10.1093/bjro/tzae033
Supplementary files
