Evaluating the performance of artificial intelligence-based software for digital mammography characterization
- Авторлар: Vasilev Y.A.1,2, Kolsanov A.V.3, Arzamasov K.M.1, Vladzymyrskyy A.V.1,4, Omelyanskaya O.V.1, Semenov S.S.1, Axenova L.E.1
-
Мекемелер:
- Research and Practical Clinical Center for Diagnostics and Telemedicine Technologies
- National Medical and Surgical Center named after N.I. Pirogov
- Samara State Medical University
- Sechenov First Moscow State Medical University
- Шығарылым: Том 5, № 4 (2024)
- Беттер: 695-711
- Бөлім: Original Study Articles
- ##submission.dateSubmitted##: 24.01.2024
- ##submission.dateAccepted##: 10.10.2024
- ##submission.datePublished##: 02.12.2024
- URL: https://jdigitaldiagnostics.com/DD/article/view/625967
- DOI: https://doi.org/10.17816/DD625967
- ID: 625967
Дәйексөз келтіру
Толық мәтін
Аннотация
BACKGROUND: Digital screening mammography is a key modality for early detection of breast cancer, reducing mortality by 20–40%. Many artificial intelligence (AI)-based services have been developed to automate the analysis of imaging data.
AIM: The aim of the study was to compare mammography assessments using three types of AI services in multiple versions with radiologists’ conclusions.
MATERIALS AND METHODS: Binary mammography scoring scales were compared with several types and versions of AI services regarding diagnostic accuracy, Matthews correlation coefficient, and maximum Youden’s index.
RESULTS: A comparative analysis showed that the use of a binary scale for evaluating digital mammography affects the number of detected abnormalities and accuracy of AI results. In addition, diagnostic accuracy was found to be threshold dependent. AI Service 1 in version 3 had the best performance, as confirmed by most diagnostic accuracy parameters.
CONCLUSIONS: Our results can be used to select AI services for interpreting mammography screening data. Using Youden’s index maximization to set up an AI service provides a balance of sensitivity and specificity that is not always clinically relevant.
Толық мәтін
Обоснование
В рентгенологии цифровая маммография является основным инструментом для диагностики и единственным инструментом для скрининга злокачественных новообразований (ЗНО) молочной железы. Проведение скрининга позволяет значительно раньше обнаружить патологические изменения молочной железы, связанные со злокачественными новообразованиями, что снижает уровень смертности от ЗНО на 20–40% [1]. С развитием искусственного интеллекта (ИИ) появляется всё больше систем или сервисов на его основе, которые автоматизируют анализ изображений цифровой маммографии [2–4]. Часть исследований показывает, что сервисы искусственного интеллекта (ИИС) достигают высокой точности диагностики, которая в некоторых случаях превосходит результаты врачей-рентгенологов. Чаще всего это касается обнаружения признаков ЗНО на ранних стадиях развития опухоли и/или в случае преобладания фиброгландулярной ткани молочной железы в проекции патологических изменений. Однако есть исследования, указывающие на то, что при интерпретации маммографических изображений точность врачей-рентгенологов всё ещё превышает точность ИИС [5]. Модели машинного обучения — это основные функциональные компоненты ИИС, ответственные за детекцию и сегментацию областей интереса с патологическими изменениями, обработку и классификацию данных и вывод предсказаний или решений на основе этих данных. Сравнение моделей машинного обучения включает в себя расчёт показателей диагностической точности, таких как чувствительность (Sens — Sensetivity) и специфичность (Spec — Specificity), а также анализ площади под характеристической кривой (AUC — Area Under Curve) [6, 7].
Для оценки производительности ИИ необходимо выбрать истинное значение, с которым будут сравниваться результаты ИИС. В основном расчёты проводят относительно выходных данных модели и «золотого» стандарта, который формируется по результатам дополнительных исследований [8, 9]. Кроме того, возможна оценка результатов ИИ путём их сравнения с заключением врача [10, 11]. Основным преимуществом ИИ-систем является возможность их тонкой настройки, однако важным аспектом внедрения и использования ИИС в медицине является проверка точности программного обеспечения (ПО), которое выдаёт вероятность вместо традиционного бинарного результата.
Интерпретация вероятностных результатов требует определения порога отсечения, от которого зависит какая вероятность считается «патологией», а какая — «нормой». Определение оптимального порогового значения вероятности зависит от конкретных целей и контекста применения ИИС. Поскольку распределение вероятностей для несбалансированных данных имеет тенденцию к смещению в сторону класса «норма» [12], выбор значения 0,5 в качестве порога может оказаться неоптимальным. Для максимального выявления случаев ЗНО и сведения к минимуму количества ложно положительных результатов необходима балансировка между чувствительностью и специфичностью модели машинного обучения. Одним из подходов, которым часто пользуются для максимизации значений Sens и Spec, является максимизация их суммы с помощью индекса Юдена [7]. Кроме того, F. Chen и соавт. [13] предложили метод сравнения максимального значения индекса Юдена для нескольких диагностических тестов. Учитывая тот факт, что применение систем искусственного интеллекта в медицинской диагностике может иметь высокие риски при недостаточной их производительности, необходима методология полной оценки потенциала и ограничений в работе таких ИИ-систем.
Цель
Сравнить результаты оценки цифровых маммографических исследований, выполненной ИИС в нескольких версиях, с заключениями врачей-рентгенологов.
Материалы и методы
Дизайн исследования
Проведено обсервационное многоцентровое одномоментное выборочное исследование. Дизайн исследования, а также схема формирования наборов данных для проведения анализа представлены на рис. 1.
Рис. 1. Дизайн исследования и формирование наборов данных для анализа: ИИ-сервис — сервис искусственного интеллекта.
Критерии соответствия
Критерии включения. В выборку включали пациенток (без учёта их возраста или наличия сопутствующих заболеваний), проходивших цифровую маммографию в период с 22 июля 2020 г. по 29 декабря 2022 г., при наличии в составе медицинских данных изображения в формате DICOM и соответствующей информации для анализа ИИС.
Критерии невключения:
- отсутствие в составе медицинских данных результатов для обработки хотя бы одним из анализируемых ИИС;
- наличие технических дефектов изображений, мешающих корректной интерпретации (например, артефакты, частичное отсутствие данных);
- неполная информация о метаданных, необходимая для анализа.
Дополнительно. Исследования с участием пациенток с имплантами и пациенток после лучевой терапии не выделяли в отдельные подгруппы, и их количество в выборке не отслеживали.
Условия проведения
Данные в итоговой выборке включали в себя результаты обследований, проведённых в 123 амбулаторных медицинских организациях Департамента здравоохранения города Москвы. В исследовании приняли участие 531 врач-рентгенолог по субспециализации маммография, все врачи описывали исследования в медицинских организациях Департамента здравоохранения города Москвы. В качестве истинного значения для сравнения с результатами ИИС использовали заключение врача-рентгенолога по каждому исследованию. За указанный период времени каждый врач описал в среднем по 1250 исследований.
Формирование и анализ данных
В качестве эталонных значений для оценки точности результатов ИИС использовали заключения врачей- рентгенологов, взятые из медицинской документации. Заключения были представлены в виде категорий, соответствующих стандартной системе классификации и интерпретации результатов маммографических исследований BI-RADS 1–6 (Breast Imaging Reporting and Data System), отдельно для каждой молочной железы. Разделение на бинарные диагностические шкалы согласно вероятности наличия ЗНО по системе BI-RADS проводили тремя способами: шкала I — отнесение категории BI-RADS 1–2 к «норме», категории 3–6 — к «патологии»; шкала II — отнесение категории BI-RADS 1–3 к «норме», а категории 4–6 — к «патологии»; шкала III — отнесение категории BI-RADS 1–2 к «норме», а 4–6 — к «патологии» (категория BI-RADS 3 в данной шкале не учитывается).
В исследование было включено три ИИС: ТриоДМ-МТ® (AUC 0,90; специфичность 0,85; чувствительность 0,83; точность 0,84) (АО «Медицинские Технологии лтд», Россия), Цельс® (AUC 0,96) (ООО «Медицинские скрининг системы», Россия) и Lunit INSIGHT MMG® (AUC 0,96; чувствительность 0,89 при оценке исследований совместно с радиологом) (Lunit Inc., Южная Корея) [2–4]. Для каждого маммографического исследования результаты работы ИИС представлены в виде значений вероятности в диапазоне от 0% (низкое подозрение на злокачественность) до 100% (высокое подозрение на злокачественность). Далее по тексту торговые наименования ИИС представлены анонимно и рандомизированы.
Предварительная обработка данных включала удаление строк, в которых отсутствовал результат описания исследования врачом и/или отсутствовал результат работы ИИС. Кроме того, из набора данных исключили исследования, выполненные пациентам мужского пола; исследования, где возраст обследуемой составлял менее 40 или более 100 лет; исследования, где заключение врача не соответствовало системе BI-RADS 1–6 или ни одному из вышеперечисленных ИИС.
После предварительной обработки данных каждой маммографии рассчитывали показатели диагностической точности, включая AUC, чувствительность (Sens), специфичность (Spec), точность (Acc), положительную прогностическую ценность (PPV), коэффициент ложных отрицательных (FNR), коэффициент выявления случаев (CDR), долю ложноположительных заключений (AIR), коэффициент корреляции Мэттьюса (MCC) и индекс Юдена (J). В табл. 1 приведены описания каждой метрики и указаны диагностические шкалы, продемонстрировавшие максимальные значения этих метрик.
Во время исследования ИИС дорабатывали: осуществляли дообучение, тонкую настройку, вносили другие изменения. Каждое изменение версии ИИС соответствовало его доработке. В исследовании учитывали только затрагивающие ядро ИИС изменения, которые влияли на показатели диагностической точности. Таким образом, для ИИС-1 и ИИС-2 было выделено три версии, отражающие последовательные изменения лежащей в основе ПО модели и работающие в разное время. В ИИС-3 существенных изменений не вносили, поэтому отдельных версий не выделяли.
Для определения оптимального порога отсечения значения вероятности вычисляли AUC и максимальное значения индекса Юдена. Вычисления проводили с использованием WEB-инструмента, разработанного Московским центром диагностики и телемедицины1. Формула для расчёта значения индекса Юдена имеет вид:
(1)
где Sens — чувствительность; Spec — специфичность.
С использованием порога отсечения, были рассчитаны бинарные результаты для ИИС. Далее, для сравнения результатов ИИС с заключением врача вычисляли:
- TP — True Positive, количество истинно положительных случаев;
- TN — True Negative, количество истинно отрицательных случаев;
- FP — False Positive, количество ложно положительных случаев;
- FN — False Negative, количество ложно отрицательных случаев.
С использованием полученных значений TP, TN, FP и FN вычисляли следующие метрики точности ИИС (табл. 1) [14]:
(2)
где x — значения по оси X (например, ложные положительные), y — значения по оси Y (например, истинные положительные), n — общее количество точек на кривой, i — индекс текущей точки.
Таблица 1. Описание метрик диагностической точности и диагностические шкалы, продемонстрировавшие самые высокие значения этих метрик | ||
Метрика | Описание метрики | Диагностическая шкала |
AUC | Area Under the Curve — площадь под характеристической кривой; отражает способность различать класс, не чувствительна к дисбалансу классов | II и III |
Sens | Sensitivity — чувствительность; отражает способность детектировать класс «патология» | III |
Spec | Specificity — специфичность; отражает способность детектировать класс «норма» | II |
Acc | Accuracy — точность; отражает долю правильно классифицированных объектов от общего числа объектов в выборке, чувствительна к дисбалансу классов | II |
PPV | Positive Predictive Value — положительная прогностическая ценность; отражает соответствие детектированного класса «патология» действительно патологическому случаю | I |
AIR | Abnormal Interpretation Rate — доля исследований, которые получили заключение «патология» и нуждаются в дополнительных диагностических процедурах; отражает наибольшее количество ложно положительных результатов | I |
CDR | Case Detection Rate — коэффициент выявления случаев; отражает выявление случаев патологии независимо от общего числа ложно положительных результатов | I |
FNR | False Negative Rate — коэффициент ложных отрицательных; оценивает количество случаев патологии, которые не были детектированы сервисом искусственного интеллекта | I |
MCC | Matthews Correlation Coefficien — коэффициент корреляции Мэттьюса; оценивает качество классификации с учётом всех четырёх элементов матрицы ошибок, метрика не чувствительна к дисбалансу классов | I |
J | Youden’s Index — индекс Юдена | - |
(3)
(4)
(5)
(6)
(7)
(8)
(9)
(10)
Для расчёта показателей точности, а также доверительных интервалов мы применяли метод бутстрэппинга (Bootstrapping), который заключается в формировании 100 выборок по 1000 образцов с соотношением категорий 0 («норма») и 1 («патология») равным 9:1 (для диагностической шкалы I), 33:1 (для шкалы II) и 31:1 (для шкалы III), что позволило сымитировать соотношение, рассчитанное в наборах данных 1–3.
Этическая экспертиза
Настоящая работа проведена в рамках ранее одобренного локальным этическим комитетом исследования «Эксперимент по использованию инновационных технологий в области компьютерного зрения для анализа медицинских изображений и дальнейшего применения в системе здравоохранения города Москвы» (Московский эксперимент); (протокол № NCT04489992 от 21 февраля 2020 года).
Статистический анализ
В настоящем исследовании сравнивали точность оценки наличия или отсутствия ЗНО молочной железы для трёх бинарных шкал, составленных на основе заключений врачей-рентгенологов и для трёх ИИС. Для проверки нормальности распределения сформированных наборов данных использовали непараметрический тест Колмогорова–Смирнова.
Чтобы оценить статистическую значимость различий между максимальными значениями индекса Юдена для различных типов и версий ИИС использовали метод, описанный F. Chen и соавт. [13]. Дисперсию (Variance — Var) разности двух независимых индексов Юдена измеряли по формуле:
(11)
где J — значение индекса Юдена, а значение Var расчитывается по формуле:
(12)
где Spec — специфичность; Senc — чувствительность.
Таким образом, уравнение имеет вид:
(13)
Статистический тест и двусторонний доверительный интервал для оценки разности двух независимых индексов Юдена (J) рассчитывали на основе центральной предельной теоремы:
(14)
(15)
где Z — стандартная нормальная случайная величина, характеризующая отклонение разности от нуля в стандартных отклонениях; Var — дисперсия; d — разность между двумя индексами Юдена; — стандартное отклонение разности индексов Юдена.
Статистически значимым выбрано значение p меньше 0,05. Доверительный интервал соответствует 95%. Для расчётов использовали библиотеки Pandas, Matplotlib и Seaborn, Scikit-learn, NumPy, Statistics (stats) языка программирования Python (Python Software Foundation, версия 3.11.0).
Результаты
Сравнение бинарных диагностических шкал, составленных на основе заключений врача
Оценка нормальности распределения категорий 1–6 по шкале BI-RADS, выставленных врачом, показала, что распределение данных показателей не соответствует нормальному. На рис. 2 представлены гистограммы распределения категорий BI-RADS. Пики на графике соответствуют наиболее вероятным категориям. В данном случае самый высокий пик соответствует категории BI-RADS 2 — «доброкачественные изменения молочной железы», что указывает на отсутствие признаков патологических изменений, ассоциированных с ЗНО, в большинстве исследований, входящих в выборку.
Рис. 2. Распределение категорий 1–6 по шкале BI-RADS, выставленных врачом в ходе описания цифровой маммографии для исследуемых наборов данных: по оси X — категория по шкале BI-RADS 1–6; по оси Y — количество исследований.
В набор данных 1 и 2 вошло 663 606 исследований, в набор данных 3 — 618 947 исследований, количество случаев патологии составило 64 100, 19 441 и 19 441, а количество случаев нормы —599 506, 644 165 и 599 506 соответственно. Таким образом, частота встречаемости ЗНО в исследуемой выборке данных составляет 9,66% для бинарной шкалы I и 2,9% для бинарной шкалы II и III (рис. 3). Подробная информация о наборах данных представлена в табл. 2 и 3.
Рис. 3. Сравнение распределения категорий 0–1, выставленных врачами и сервисом искусственного интеллекта для трёх бинарных шкал: по оси X — бинарная шкала I–III; по оси Y — количество исследований; ИИ — искусственный интеллект.
Таблица 2. Количество случаев нормы и патологии в наборах данных 1-3 | ||||
Норма | Патология | Все исследования | Количество здоровых на 1 больного | |
Шкала I | 599 506 | 64 100 | 663 606 | 9 |
Шкала II | 644 165 | 19 441 | 663 606 | 33 |
Шкала III | 599 506 | 19 441 | 618 947 | 31 |
Таблица 3. Количество исследований в наборах данных (период 2020–2022 гг.) | |||||||||||||
Шкалы | I–II | III | |||||||||||
Количество исследований | 663 606 | 618 947 | |||||||||||
Сервисы | 1 | 2 | 3 | 1 | 2 | ||||||||
Количество исследований | 545 362 | 108 763 | 9481 | 508 929 | 101 654 | ||||||||
Версии | 1 | 2 | 3 | 1 | 2 | 3 | - | 1 | 2 | 3 | 1 | 2 | 3 |
Количество исследований | 90 949 | 212 968 | 241 445 | 4922 | 46 851 | 56 990 | - | 83 828 | 198 231 | 226 870 | 4711 | 43 687 | 53 256 |
Для оценки соответствия результатов врача и ИИС в трёх сформированных наборах данных были рассчитаны показатели диагностической точности (табл. 1 и 4). Можно отметить, что площадь под характеристической кривой AUC для шкалы I значительно отличалась от шкалы II и III, у которых AUC не различается между собой. Кроме того, чувствительность Sens была больше для шкалы III, в то время как специфичность Spec — для шкалы II. Наибольшее количество ложно положительных результатов AIR и самый высокий процент случаев заболевания, оставшихся не детектированными FNR, показала шкала I; самыми низкими перечисленные показатели были у шкалы II. Уровень согласованности, измеренный с помощью метрики MCC, также, как и метрики PPV и CDR, показали самые высокие значения в шкале I (табл. 5).
Таблица 4. Сервисы искусственного интеллекта и их версии, имевшие наибольшие значения метрик точности по сравнению с диагностическими шкалами | ||||
Метрика | Шкала сравнения | ИИС | Номер версии ИИС-1 | Номер версии ИИС-2 |
AUC | I | 1 | 3 | 1 и 3 |
II | 1 | 3 | 1 и 2 | |
III | 1 | 3 | 1 и 2 | |
Sens | I | 1 и 2 | 2 и 3 | 2 и 3 |
II | 1 и 2 | 3 | 2 | |
III | 1 и 2 | 3 | 2 | |
Spec | I | 1 | 3 | 1 |
II | 1 | 1 и 3 | 1 | |
III | 1 | 1 | 1 | |
Acc | I | 1 | 3 | 1 |
II | 1 | 3 | 1 | |
III | 1 | 1 | 1 | |
PPV | I | 1 | 3 | 1 |
II | 1 | 3 | 1 | |
III | 1 | 2 и 3 | 1 | |
AIR | I | 3 | 1 | 2 |
II | 3 | 2 | 2 | |
III | 3 | 3 | 2 | |
CDR | I | 1 и 2 | 2 и 3 | 2 и 3 |
II | 1 и 3 | 3 | 2 | |
III | 1 и 3 | 3 | 2 | |
FNR | I | 3 | 1 | 1 |
II | 2 | 1 | 1 и 3 | |
III | 2 | 1 | 1 и 3 | |
MCC | I | 1 | 3 | 1 |
II | 1 | 3 | 1 | |
III | 1 | 3 | 1 | |
Индекс Юдена | I | 1 | 3 | 1 |
II | 1 | 3 | 2 | |
III | 1 | 3 | 2 | |
Примечание. ИИС — сервис искусственного интеллекта; АUC — площадь под характеристической кривой; Sens — чувствительность; Spec — специфичность; Acc — точность; PPV — положительная прогностическая ценность; AIR — доля исследований, получивших заключение «патология»; CDR — коэффициент выявления случаев; FNR — коэффициент ложных отрицательных; MCC — коэффициент корреляции Мэттьюса. |
Таблица 5. Значения метрик диагностической точности, измеренные для результатов сервиса искусственного интеллекта (ИИС-1) | |||
Метрика | Диагностическая бинарная шкала | ||
I | II | III | |
Порог отсечения | 62 | 74 | 68 |
AUC | |||
Sens | |||
Spec | |||
Acc | |||
PPV | |||
AIR | |||
CDR | |||
FNR | |||
MCC | |||
Примечание. Данные представлены в виде среднего значения [95%ДИ]; * — статистически значимые различия между шкалами I и II, I и III, II и III (ДИ не перекрываются); ДИ — доверительный интервал; АUC —площадь под характеристической кривой; Sens — чувствительность; Spec — специфичность; Acc — точность; PPV — положительная прогностическая ценность; AIR — доля исследований, получивших заключение «патология»; CDR — коэффициент выявления случаев; FNR — коэффициент ложных отрицательных; MCC — коэффициент корреляции Мэттьюса. |
Сравнение ИИС между собой и со шкалами на основе заключений врача
Распределение значений вероятностей наличия патологии в исследовании для ИИС 1–3 представлены на рис. 4. Можно отметить, что распределение вероятностей ИИС наиболее схоже для шкалы II и III. При этом для категории «норма» распределение смещено вправо, особенно у ИИС-2 и -3, а для категории «патология» — для ИИС-1 распределение смещено влево, а для ИИС-2 и -3 — вправо.
Рис. 4. Распределение результатов работы трёх сервисов искусственного интеллекта при проведении анализа трёх наборов данных: по оси X — варианты сервиса искусственного интеллекта; по оси Y —вероятность; данные представлены в виде: центральная линия — медиана; края «ящика» — первый (Q1) и третий (Q3) квартиль; «усы» — минимальное и максимальное значение данных; ИИ-сервис — сервис на основе искусственного интеллекта.
Для оценки и сравнения между собой производительности ИИС-1, -2 и -3 использовали те же показатели диагностической точности. По показателям, которые указывают на соответствие результатов работы сервиса мнению врача в определении категорий «норма» и «патология», лидирует ИИС-1, в то время как количество ложноположительных результатов AIR и процент не детектированных реальных случаев заболевания FNR оказались самыми высокими для ИИС-2 и ИИС-3 (табл. 6).
Таблица 6. Значения метрик диагностической точности, измеренные для результатов трёх сервисов искусственного интеллекта относительно заключений врача | ||||
Метрика | Бинарная шкала | ИИС-1 | ИИС-2 | ИИС-3 |
Порог отсечения | I | 64 | 32 | 10 |
II | 75 | 44 | 20 | |
III | 74 | 44 | 20 | |
AUC | I | |||
II | ||||
III | ||||
Sens | I | |||
II | ||||
III | ||||
Spec | I | |||
II | ||||
III | ||||
Acc | I | |||
II | ||||
III | ||||
PPV | I | |||
II | ||||
III | ||||
AIR | I | |||
II | ||||
III | ||||
CDR | I | |||
II | ||||
III | ||||
FNR | I | |||
II | ||||
III | ||||
MCC | I | |||
II | ||||
III | ||||
Примечание. ИИС — сервис искусственного интеллекта; данные представлены в виде среднего [95% ДИ]; * — статистически значимые различия между сервисами 1 и 2, 1 и 3, 2 и 3 (ДИ не перекрываются); ДИ — доверительный интервал; АUC —площадь под характеристической кривой; Sens — чувствительность; Spec — специфичность; Acc — точность; PPV — положительная прогностическая ценность; AIR — доля исследований, получивших заключение «патология»; CDR — коэффициент выявления случаев; FNR — коэффициент ложных отрицательных; MCC — коэффициент корреляции Мэттьюса. |
Сравнение версий ИИС между собой
Показатели диагностической точности измерены и для оценки различных версий ИИС-1 и -2 (табл. 7 и 8). Большинство показателей диагностической точности отличались в зависимости от используемой шкалы, однако часть отличий оказалась статистически незначимыми. Таким образом, затруднительно сделать вывод о том какая версия ИИС является наиболее производительной.
Таблица 7. Значения метрик диагностической точности, измеренные для результатов трёх версий сервиса искусственного интеллекта 1 относительно заключения врача | |||||||
Шкала | ИИС | Версия ИИС | Порог отсечения | AUC | Sens | Spec | Acc |
I | 1 | 1 | 29 | ||||
2 | 68 | ||||||
3 | 66 | ||||||
II | 1 | 1 | 57 | ||||
2 | 78 | ||||||
3 | 79 | ||||||
III | 1 | 1 | 57 | ||||
2 | 78 | ||||||
3 | 75 | ||||||
Шкала | ИИС | Версия ИИС | PPV | AIR | CDR | FNR | MCC |
I | 1 | 1 | |||||
2 | |||||||
3 | |||||||
II | 1 | 1 | |||||
2 | |||||||
3 | |||||||
III | 1 | 1 | |||||
2 | |||||||
3 | 24,240 [23.826; 24,654] * | ||||||
Примечание. ИИС — сервис искусственного интеллекта; данные представлены в виде среднего [95% ДИ]; * — ДИ не перекрываются, что указывает на статистическую значимость различий; ДИ — доверительный интервал; АUC —площадь под характеристической кривой; Sens — чувствительность; Spec — специфичность; Acc — точность; PPV — положительная прогностическая ценность; AIR — доля исследований, получивших заключение «патология»; CDR — коэффициент выявления случаев; FNR — коэффициент ложных отрицательных; MCC — коэффициент корреляции Мэттьюса. |
Таблица 8. Значение метрик диагностической точности, измеренные для результатов трёх версий сервиса искусственного интеллекта 2 относительно заключения врача | |||||||
Шкала | ИИС | Версия ИИС | Порог отсечения | AUC | Sens | Spec | Acc |
I | 2 | 1 | 32 | ||||
2 | 30 | 0,621 [0.611; 0,631] * | 0,673 [0.670; 0,676] | ||||
3 | 32 | ||||||
II | 2 | 1 | 44 | ||||
2 | 42 | ||||||
3 | 44 | ||||||
III | 2 | 1 | 44 | ||||
2 | 39 | ||||||
3 | 44 | ||||||
Шкала | ИИС | Версия ИИС | PPV | AIR | CDR | FNR | MCC |
I | 2 | 1 | |||||
2 | |||||||
3 | |||||||
II | 2 | 1 | |||||
2 | |||||||
3 | |||||||
III | 2 | 1 | |||||
2 | |||||||
3 | |||||||
Примечание. ИИС — сервис искусственного интеллекта; данные представлены в виде среднего [95% ДИ]; * — ДИ не перекрываются, что указывает на статистическую значимость различий; ДИ — доверительный интервал; АUC —площадь под характеристической кривой; Sens — чувствительность; Spec — специфичность; Acc — точность; PPV — положительная прогностическая ценность; AIR — доля исследований, получивших заключение «патология»; CDR — коэффициент выявления случаев; FNR — коэффициент ложных отрицательных; MCC — коэффициент корреляции Мэттьюса. |
Результаты оценки шкал, сервисов и версий, которые имели наибольшие показатели диагностической точности, приведены в табл. 4.
Для сравнения производительности различных типов и версий ИИС, кроме показателей диагностической точности, мы использовали максимальное значение индекса Юдена, которое позволяет оценить баланс между чувствительностью и специфичностью ИИС. Полученные результаты позволяют заключить, что по максимальному значению индекса Юдена лидирует ИИС-1 (табл. 4). При сравнении версий ИИС-1, наилучшие показатели диагностической точности получены для его 3-й версии. Однако, ИИС-2 по индексу Юдена показал наивысший результат для версии 1 по шкале I и для версии 2 — по шкалам II и III. Для всех результатов показаны статистически значимые различия.
Обсуждение
В настоящем исследовании провели сравнение бинарных шкал оценки цифровой маммографии, трёх ИИС и трёх версий ИИС-1 и -2. Для этого рассчитывали классические показатели диагностической точности и индекс Юдена.
Отношение количества обнаруженных случаев ЗНО к общему числу выполненных исследований составляет 0,10, 0,03 и 0,03 для шкал I, II и III соответственно. Для скрининга важны различия в формировании диагностических шкал, поскольку необходимо оценивать риск пропуска патологии. Например, для категории BI-RADS 3 требуется дополнительное обследование, по результатам которого часть пациентов может быть отнесена к категориям с более высокой степенью злокачественности. Именно поэтому использование шкалы II позволит снизить вероятность пропуска патологии, так как в данной шкале категория BI-RADS 3 относится к группе «патология».
Примечательно, что в шкале I на частоту встречаемости патологии не влияет как присутствие категории BI-RADS 3 в группе «патология», так и полное отсутствие категории BI-RADS 3 в наборе данных. Однако, добавление этой категории в группу «норма» значительно увеличивает расчётную частоту встречаемости ЗНО в популяции скрининга. Такая же тенденция в категории BI-RADS 3 по шкале I наблюдается и для показателя площади под характеристической кривой AUC, который значимо не различается для шкал II и III.
Сравнение трёх выбранных для исследования ИИС по показателям диагностической точности выявило, что значения метрик AUC, специфичности, чувствительность, точности, PPV, CDR и MCC выше для ИИС-1 по сравнению со всеми шкалами, в то время как, метрика AIR имеет самые высокие значения для ИИС-3, а метрика FNR — для ИИС-2 и -3 в зависимости от бинарной шкалы. В целом эти результаты указывают на лучшую производительность ИИС-1. Сравнение максимальных значений индекса Юдена также показало наибольшую точность для ИИС-1 относительно всех шкал. Тем не менее оценка с помощью индекса Юдена показала статистически значимые различия между всеми шкалами и сервисами, тогда как при использовании доверительных интервалов, рассчитанных методом бутстрэппинга, метрика точности CDR и чувствительность значимо не различались между некоторыми сервисами.
При выборе ИИС и их версий так же, как и в случае бинарных шкал, важно учитывать контекст целей их использования. Например, при необходимости раннего обнаружения рентгенологических признаков ЗНО основным показателем диагностической точности будет чувствительность Sens, так как ИИС должен обнаруживать как можно больше действительно положительных, то есть патологических случаев. Второй важный показатель — это метрика FNR, минимизация которой позволит снизить количество пропущенных случаев патологии. Согласно результатам настоящего исследования, наибольшую чувствительность имеют ИИС-1 и ИИС-2. Однако, самое высокое значение показателя FNR было получено для ИИС-2 по отношению к шкале II и III. Что касается выбора версии, то в данном случае лучше всего соответствует цели применение ИИС-1 в версии 3, а ИИС-2 — в версии 2.
При необходимости получить максимальную точность интерпретации важна специфичность, для уменьшения числа ложно положительных результатов, и значение метрики PPV, которая позволяет убедиться, что большинство положительных результатов классификации действительно являются патологическими случаями. ИИС-1 имеет самую высокую эффективность в таких случаях. При этом для различных версий ИИС-1 значения метрик специфичности и PPV отличались для разных шкал.
Снижение метрики AIR позволяет сократить время, которое врачи-рентгенологи тратят на дополнительную интерпретацию исследования, если классификация ИИС ясна и надёжна. В нашем исследовании самое низкое значение AIR продемонстрировал ИИС-1 относительно всех шкал.
Чтобы получить общую оценку правильности классификации случаев «норма» и «патология» для ИИС и их версий необходимо обратить внимание на следующие метрики: точность Acc, высокое значение которой отражает в какой мере оба класса могут быть правильно классифицированы; коэффициент Мэтьюса, который оценивает общую производительность классификатора, учитывая все аспекты матрицы ошибок. В настоящем исследовании самую высокую общую оценку правильности классификации имеет ИИС-1 в версии 3. Важно отметить, что результаты работы ИИС сопоставляли с разметкой, выполненной врачом, и приведённой к соответствующему классу, что накладывает определенные ограничения, поскольку важно знать показатели диагностической точности врача-рентгенолога. Диагностическую точность врача можно оценить на эталонном наборе данных, в котором истинное значение определено по данным гистологии. Такое исследование уже было проведено и показало высокую диагностическую точность врачей-рентгенологов (AUC составляет 0,928) [15]. В настоящем исследовании мы получили более низкие значения AUC для выбранных ИИС, что свидетельствует о необходимости доработки решений, что и было выполнено в период с 2020 по 2022 год. С другой стороны, важно обращать внимание на значения показателей чувствительности и специфичности, а они уступают таковым для врача-рентгенолога [15]. В контексте исследования, описанного в настоящей статье, мы не ставили задачу оптимизировать настройку того или иного показателя. Важно заметить, что ИИС при одном и том же значении AUC может быть настроен на любое значение чувствительности. Например, настройка на чувствительность, близкую к 100%, позволит не пропускать патологию, но при этом даст большое количество ложно положительных результатов. В последующих работах мы планируем детально изучить возможности тонкой настройки ИИС с целью оптимизации показателей чувствительности и специфичности.
Применение технологий ИИ в маммографии в первую очередь видится в замене первого чтения, что будет способствовать повышению точности диагностики ЗНО молочных желёз [16], за счёт увеличения чувствительности. Возможен альтернативный способ применения ИИ — в качестве инструмента для сортировки исследований, когда настройки чувствительности близки к 100%. В этом случае врачам-рентгенологам можно не описывать исследования, которые ИИ классифицировал как «без патологии», а сразу передавать их в виде электронной медицинской записи. Такой способ показал свою перспективность для автономной сортировки результатов флюорографии в недавнем исследовании [17]. Что касается маммографии, такой сценарий может быть менее эффективным из-за наличия многочисленной группы доброкачественных изменений, которые также могут требовать внимания и дополнительного изучения.
Ограничения исследования
Данное исследование содержит результаты первых трёх лет масштабного исследования «Эксперимент по использованию инновационных технологий в области компьютерного зрения для анализа медицинских изображений и дальнейшего применения в системе здравоохранения города Москвы» [18] и не затрагивает вопросов оптимальной настройки ИИС. Ограничением исследования является то, что показатель AUC может быть недостаточно информативным для оценки производительности ИИС в клинической среде, поскольку выбор конкретного порога не всегда применим к реальным условиям использования сервиса. Кроме того, метрики чувствительности Sens и специфичности Spec не учитывают распространенность заболевания в популяции. Именно поэтому в дальнейших исследованиях мы планируем применять другие методы оценки эффективности использования ИИС в клинической практике, а также использовать результаты гистологической верификации в качестве истинных значений. Важно отметить, что в настоящее исследование включены только маммографические исследования, содержащие результаты обработки ИИС, при этом не анализировали маммограммы, по которым ИИС не вернул результата. Кроме того, в настоящем исследовании не уделяли внимания оценке качества работы ИИС с исследованиями молочных желёз при наличии инородных тел (имплантов) и с изменениями, вызванными лучевой терапией, что, несомненно, представляет большой практический интерес и будет являться целью одной из следующих работ.
Заключение
В настоящем исследовании показано, что выбор способа формирования бинарной шкалы «норма / патология» влияет на результаты сравнительной оценки метрик диагностической точности различных типов и версий ИИС. В то же время индекс Юдена позволяет обнаружить статистически значимую разницу между значениями показателей точности ИИС и диагностических шкал, а выбор метрик для проведения сравнительной оценки ИИС зависит от клинической задачи. С другой стороны, настройка ИИС методом максимизации индекса Юдена позволяет получать сбалансированные значения чувствительности и специфичности, что не всегда может быть целесообразно с клинической точки зрения.
Дополнительная информация
Источник финансирования. Данная статья подготовлена авторским коллективом в рамках НИР/НИОКР «Научные методологии устойчивого развития технологий искусственного интеллекта в медицинской диагностике» (№ ЕГИСУ: 123031500004-5) в соответствии с Приказом от 21.12.2022 № 1196 «Об утверждении государственных заданий, финансовое обеспечение которых осуществляется за счёт средств бюджета города Москвы государственным бюджетным (автономным) учреждениям подведомственным Департаменту здравоохранения города Москвы, на 2023 год и плановый период 2024 и 2025 годов» Департамента здравоохранения города Москвы.
Конфликт интересов. Авторы декларируют отсутствие явных и потенциальных конфликтов интересов, связанных с публикацией настоящей статьи.
Вклад авторов. Авторы подтверждают соответствие своего авторства международным критериям ICMJE (все авторы внесли существенный вклад в разработку концепции, проведение исследования и подготовку статьи, прочли и одобрили финальную версию перед публикацией). Наибольший вклад распределён следующим образом: Ю.А. Васильев, А.В. Владзимирский, О.В. Омелянская, А.В. Колсанов — концепция исследования; К.М. Арзамасов — планирование и руководство исследованием; С.С. Семёнов — анализ данных; Л.Е. Аксёнова — анализ данных, написание текста публикации.
Additional information
Funding source. This article was prepared by a group of authors as a part of the research and development effort titled "Scientific methodologies for sustainable development of artificial intelligence technologies in medical diagnostics" (USIS No.: 123031500004-5) in accordance with the Order No. 1196 dated December 21, 2022 "On approval of state assignments funded by means of allocations from the budget of the city of Moscow to the state budgetary (autonomous) institutions subordinate to the Moscow Health Care Department, for 2023 and the planned period of 2024 and 2025" issued by the Moscow Health Care Department.
Competing interests. The authors declare that they have no competing interests.
Authors’ contribution. All authors made a substantial contribution to the conception of the work, acquisition, analysis, interpretation of data for the work, drafting and revising the work, final approval of the version to be published and agree to be accountable for all aspects of the work. Yu.A. Vasiliev, A.V. Vladzimirskyy, O.V. Omelyanskaya, A.V. Kolsanov — research concept; K.M. Arzamasov — planning and directing the research; S.S. Semenov — data analysis; L.E. Axenova — data analysis, text writing.
1 С.П. Морозов, А.Е. Андрейченко, С.Ф. Четвериков, и др. Свидетельство о государственной регистрации программы для ЭВМ № 2022617324 Российская Федерация. Веб-инструмент для выполнения ROC анализа результатов диагностических тестов: № 2022616046: заявл. 05.04.2022: опубл. 19.04.2022. Режим доступа: https://roc-analysis.mosmed.ai/ Дата обращения: 20.08.2023 EDN: ECMPNH
Авторлар туралы
Yuriy Vasilev
Research and Practical Clinical Center for Diagnostics and Telemedicine Technologies; National Medical and Surgical Center named after N.I. Pirogov
Email: VasilevYA1@zdrav.mos.ru
ORCID iD: 0000-0002-5283-5961
SPIN-код: 4458-5608
MD, Cand. Sci. (Medicine)
Ресей, Moscow; MoscowAlexander Kolsanov
Samara State Medical University
Email: a.v.kolsanov@samsmu.ru
ORCID iD: 0000-0002-4144-7090
SPIN-код: 2028-6609
MD, Dr. Sci. (Medicine), Professor
Ресей, SamaraKirill Arzamasov
Research and Practical Clinical Center for Diagnostics and Telemedicine Technologies
Email: ArzamasovKM@zdrav.mos.ru
ORCID iD: 0000-0001-7786-0349
SPIN-код: 3160-8062
MD, Cand. Sci. (Medicine), Head of MIRR Department
Ресей, MoscowAnton Vladzymyrskyy
Research and Practical Clinical Center for Diagnostics and Telemedicine Technologies; Sechenov First Moscow State Medical University
Email: VladzimirskijAV@zdrav.mos.ru
ORCID iD: 0000-0002-2990-7736
SPIN-код: 3602-7120
MD, Dr. Sci. (Medicine), Professor
Ресей, Moscow; MoscowOlga Omelyanskaya
Research and Practical Clinical Center for Diagnostics and Telemedicine Technologies
Email: OmelyanskayaOV@zdrav.mos.ru
ORCID iD: 0000-0002-0245-4431
SPIN-код: 8948-6152
Ресей, Moscow
Serafim Semenov
Research and Practical Clinical Center for Diagnostics and Telemedicine Technologies
Email: SemenovSS3@zdrav.mos.ru
ORCID iD: 0000-0003-2585-0864
SPIN-код: 4790-0416
Ресей, Moscow
Lubov Axenova
Research and Practical Clinical Center for Diagnostics and Telemedicine Technologies
Хат алмасуға жауапты Автор.
Email: AksenovaLE@zdrav.mos.ru
ORCID iD: 0000-0003-0885-1355
SPIN-код: 7705-6293
Ресей, Moscow
Әдебиет тізімі
- Seely JM, Alhassan T. Screening for breast cancer in 2018-what should we be doing today? Curr Oncol. 2018;25(suppl 1):S115–S124. doi: 10.3747/co.25.3770
- Artificial intelligence in mammography screening. Clinical applications, issues and directions for development [Internet; cited 20 August 2023]. Available from: https://www.itmportal.ru/upload/iblock/69e/7q981uhfaxjhcntal0exngxtq43xeth2/2.2.3.-Kandoba-ITM_AI-2022.pdf (in Russ.)
- Celsus — AI-software for analysis of X-ray and CT studies. Mammography [Internet; cited 20 Aug 2023]. Available from: https://celsus.ai/products-mammography/
- Kim HE, Kim HH, Han BK, et al. Changes in cancer detection and false-positive recall in mammography using artificial intelligence: a retrospective, multireader study. Lancet Digit Health. 2020;2(3):e138–e148. doi: 10.1016/S2589-7500(20)30003-0
- Yoon JH, Strand F, Baltzer PAT, et al. Standalone AI for Breast Cancer Detection at Screening Digital Mammography and Digital Breast Tomosynthesis: A Systematic Review and Meta-Analysis. Radiology. 2023;307(5):e222639. doi: 10.1148/radiol.222639
- Zhou X-H, Obuchowski NA, McClish DK. Statistical Methods in Diagnostic Medicine. NJ: John Wiley & Sons, Inc.; 2011. doi: 10.1002/9780470906514
- Habibzadeh F, Habibzadeh P, Yadollahie M. On determining the most appropriate test cut-off value: the case of tests with continuous results. Biochem Med (Zagreb). 2016;26(3):297–307. doi: 10.11613/BM.2016.034
- Schaffter T, Buist DSM, Lee CI, et al. Evaluation of Combined Artificial Intelligence and Radiologist Assessment to Interpret Screening Mammograms. JAMA Netw Open. 2020;3(3):e200265. doi: 10.1001/jamanetworkopen.2020.0265
- McKinney SM, Sieniek M, Godbole V, et al. International evaluation of an AI system for breast cancer screening. Nature. 2020;577(7788):89–94. doi: 10.1038/s41586-019-1799-6
- Nam JG, Kim M, Park J, et al. Development and validation of a deep learning algorithm detecting 10 common abnormalities on chest radiographs. Eur Respir J. 2021;57(5):2003061. doi: 10.1183/13993003.03061-2020
- Sakhnov SN, Axenov KD, Axenova LE, et al. Development of a cataract screening model using an open dataset and deep machine learning algorithms. Fyodorov Journal of Ophthalmic Surgery. 2022;(S4):13–20. EDN: VEGPAW doi: 10.25276/0235-4160-2022-4S-13-20
- King G, Zeng L. Logistic Regression in Rare Events Data. Political Analysis. 2001;9(2):137–163. doi: 10.1093/oxfordjournals.pan.a004868
- Chen F, Xue Y, Tan MT, Chen P. Efficient statistical tests to compare Youden index: accounting for contingency correlation. Stat Med. 2015;34(9):1560–1576. doi: 10.1002/sim.6432
- Vasiliev YuA, Vladzimirsky AV, Sharova DE, et al. Clinical trials of artificial intelligence systems (radiation diagnostics). Moscow: State budgetary healthcare institution of the city of Moscow «Scientific and Practical Clinical Center for Diagnostics and Telemedicine Technologies of the Moscow Health Department». 2023. 40 p. (In Russ.) EDN: PUIJLD
- Arzamasov KM, Vasilev YuA, Vladzymyrskyy AV, et al. The use of computer vision for the mammography preventive research. The Russian Journal of Preventive Medicine. 2023;26(6):117–123. EDN: YBKHPS doi: 10.17116/profmed202326061117
- Vasilev YuA, Tyrov IA, Vladzymyrskyy AV, et al. Double-reading mammograms using artificial intelligence technologies: A new model of mass preventive examination organization. Digital Diagnostics. 2023;4(2):93–104. EDN: VRIEOH doi: 10.17816/DD321423
- Vasilev YuA, Tyrov IA, Vladzymyrskyy AV, et al. A New Model of Organizing Mass Screening Based on Stand-Alone Artificial Intelligence Used for Fluorography Image Triage. Public Health and Life Environment — PH&LE. 2023;31(11):23-32. EDN: SYIQBX doi: 10.35627/2219-5238/2023-31-11-23-32
- Vladzimirskyy AV, Vasilev YuA, Arzamasov KM, et al. Computer vision in radiology: the first stage of the Moscow experiment. Moscow: Izdatel’skie resheniya; 2022. (In Russ.) EDN: FOYLXK
Қосымша файлдар
