Diagnostic accuracy of 100 radiologists in detecting pulmonary nodules



Cite item

Full Text

Abstract

BACKGROUND: Chest X-ray is the primary modality for screening malignant lung neoplasms, especially solitary pulmonary nodules, which are the most common. Enhancing the accuracy of lung nodule detection facilitates timely medical intervention and enhances the likelihood of achieving a favorable therapeutic outcome. One approach to enhancing the efficiency of lung nodule detection in chest X-rays involves adopting novel techniques, such as those based on artificial intelligence. However, concerns regarding the effectiveness of integrating these technologies into clinical practice remain largely unaddressed due to insufficient data on radiologists' performance metrics.

AIM: This study aims to assess the diagnostic performance of 100 radiologists in identifying lung nodules on chest X-ray images.

METHODS: Each of 100 radiologist was asked to evaluate 100 chest radiographs, of which 50 contained abnormal findings while the other 50 were normal. The presence of lung nodules was assessed using the following scale: Absent (0 on the probability scale), likely absent (0.25), undecided (0.50), likely present (0.75), present (1.00). The validation of the presence or absence of pulmonary nodules was performed using a binary scale (0/1) by three expert physicians based on chest CT data acquired no more than 14 days after the chest X-ray. The study assessed the image interpretation time, the difference in performance between radiologists and expert physicians (expressed in absolute units as Delta), and the primary diagnostic accuracy metrics of the radiologists.

RESULTS: The test yielded a ROC AUC of 0.858±0.059, accuracy of 0.822±0.048, sensitivity of 0.779±0.097, and specificity of 0.864±0.095. The results demonstrated a negligible positive correlation between expert accuracy and average study processing time (Spearman correlation coefficient rs =0.189) and a low positive correlation (rs =0.344) between study processing time and the Delta value.

CONCLUSION: The obtained results can be used to assess the quality of automated detection systems under development, as well as to evaluate the efficacy of alternative methods and approaches for pulmonary nodule detection.

Full Text

Обоснование

Рентгенография (РГ) органов грудной клетки (ОГК) является распространенным методом скрининга злокачественных новообразований легких. Метод основан на выявлении характерной рентгенологической картины, представленной одиночными легочными узелками. Частота выявления этих узелков на рентгенограммах ОГК составляет от 0,09 до 0,2% от всех проведенных исследований [1–3]. Примечательно, что более 95% выявленных легочных узелков являются доброкачественными, в первую очередь проявляясь гранулемами или внутрилегочными лимфатическими узлами. Вероятность злокачественности составляет менее 1% для узелков размером менее 6 мм и возрастает до 1–2% для узелков размером от 6 мм до 8 мм [4]. Однако ранняя диагностика новообразований легких затруднена из-за отсутствия клинических проявлений.

Запоздалое выявление злокачественных новообразований легких приводит к неудовлетворительному ответу на терапию. Раннее начало лечения увеличивает удельную выживаемость с 26,4% (у пациентов с IV стадией) до 82,3% (у пациентов с I стадией) [5]. Совершенствование методов рентгенологической визуализации, развитие и интеграция нехирургических методов дифференциальной диагностики доброкачественных и злокачественных узлов, совершенствование терапевтических подходов [6–8], а также инициативы по скринингу рака легких позволят добиться более высоких показателей выживаемости.

Одним из основных рентгенологических методов надежного обнаружения и определения характеристик легочных узелков является компьютерная томография (КТ) [9]. Однако применение КТ для массового скрининга рака легких осложняется высокой стоимостью исследования и ограниченной доступностью КТ в различных регионах, в частности, из-за проблем с технической поддержкой оборудования. Более простым и доступным методом обнаружения легочных узелков является РГ ОГК. Данный вид исследования также является более безопасным по сравнению с классическими КТ с точки зрения дозовой нагрузки, однако он обеспечивает более низкую эффективность при обнаружении патологий [10].

Повышение эффективности обнаружения легочных узлов по данным РГ ОГК обеспечивается, в числе прочего, развитием искусственного интеллекта (ИИ) [11]. В раннее представленном исследовании мы проводили оценку точности 5 ИИ-сервисов, которые продемонстрировали высокие показатели чувствительности, специфичности и точности при обнаружении легочных узлов по данным РГ ОГК [12]. Закономерным остался вопрос об эффективности внедрения данных технологий в практическое здравоохранение, который невозможно решить без определения основных показателей диагностической точности классического подхода к анализу изображений, а именно – визуальной оценки рентгенологов.

M. Schultheiss и соавторы предоставили показатели диагностической точности девяти рентгенологов, которые диагностировали узелки в легких с помощью РГ ОГК и синтетических данных [13]. Скорректированные показатели достоверности по взвешенным альтернативным рабочим характеристикам свободного ответа (wAFROC FOM) рассчитывались для каждого рентгенолога и находились в диапазоне от 0,54 до 0,87.

N. Woznitza и соавторы провели сравнительный анализ эффективности специалистов с различной квалификацией. Набор рентгенограмм ОГК (n = 106) интерпретировался рентгенолаборантами (n = 11) и врачами-рентгенологами (n = 10) [14]. Авторами были получены показатели чувствительности 69,7 и 78,1 и специфичности 80,9 и 85,2 для рентгенолаборантов и врачей-рентгенологов соответственно. Также доступны данные метаанализа [15] КТ ОГК, согласно которому чувствительность обнаруженных легочных узлов составляет 0,93 (95% доверительный интервал ДИ: 0,88, 0,97), специфичность - 0,76 (95% ДИ: 0,68, 0,97), ROC AUC -0,93 (95% ДИ: 0,81, 0,97). Информации об аналогичных исследованиях по данным РГ ОГК не обнаружено.

В целом, результатов полномасштабных исследований по данной теме с привлечением большого количества рентгенологов, большого количества релевантных, несинтетических данных, а также с расчетами всех основных показателей диагностической точности не обнаружены.

Несмотря на существующую литературу, комплексное изучение показателей диагностической точности рентгенологов при интерпретации изображений РГ ОГК с наличием или отсутствием легочных узелков остаётся актуальной.

Цель

Оценить основные показатели диагностической точности рентгенологов в выявлении легочных узелков на рентгенограммах органов грудной клетки.

Методы

Дизайн исследования. Проведено одноцентровое выборочное исследование на ретроспективных данных.

Условия проведения. В экспериментальном исследовании принимали участие 100 рентгенологов научно-практического клинического центра диагностики и телемедицинских технологий (НПКЦ ДиТ) с различным опытом работы.

Критерии соответствия.

Критерии включения:

  • опыт работы врачом-рентгенологом более 1 года;
  • добровольное согласие на участие в исследовании.

Критерии невключения: отсутствие подписанного добровольного информированного согласия.

Критерии исключения: отказ от дальнейшего участия в исследовании.

Описание исследования. Участникам предлагалось ретроспективно проанализировать 100 [16] изображений ОГК c узелками (n=50) и без (n=50). Использовался готовый набор данных, который был ранее использован в работе по оценке точности ИИ-сервисов и размещен в открытом доступе [17]. Для исследования была разработана платформа, которая была развернута на рабочих станциях рентгенологов НПКЦ ДиТ. Это обеспечило безопасность данных, используемых в ходе проводимого исследования, и максимальную приближенность к реальным рабочим условиям. Общий вид данной платформы представлен на рисунке 1. На платформу с функционалом просмотрщика (DICOM viewer) были загружены анонимизированные исследования, которые демонстрировались врачам в случайном порядке.

Верификация наличия или отсутствия легочных узелков основывалась на данных КТ ОГК, выполненных в течение 14 дней после РГ. Каждое КТ-изображение интерпретировалось тремя рентгенологами. Более того, критерием включения рентгеновского снимка в эксперимент было достижение единогласного консенсуса среди всех трех врачей относительно наличия или отсутствия узелка по данным КТ [12]. Набор данных уникальных рентгеновских изображений включал 50 изображений с легочными узелками (группа PP) и 50 без них. Группа рентгенограмм без патологии была разделена на две группы. Первая группа содержала исследования без каких-либо патологических изменений (группа LN, N=25). Вторая – рентгенограммы с изменениями, схожими с патологическими, но которые не были подтверждены на КТ (группа DN, N=25). Таким образом, в выборку были включены 25% сложных случаев, в которых изначально врачом был поставлен диагноз, не подтвердившийся на КТ ОГК.

Рентгенологам, метрики диагностической точности которых определялись в исследовании, было необходимо оценить наличие патологического легочного узелка на предоставленных рентгенограммах по шкале, отражающей степень уверенности:

  1. Отсутствует (0,00 по шкале уверенности).
  2. Вероятно, отсутствует (0,25).
  3. Затрудняюсь ответить (0,50).
  4. Вероятно, присутствует (0,75).
  5. Присутствует (1,00).

Результаты валидации наличия или отсутствия легочных узелков были представлены в виде бинарной шкалы: 0 – нет, 1 – есть.

Исходы исследования. Для оценки врачебной точности для каждого врача и каждого изображения рассчитывалось значение Delta, отражающее абсолютную разницу между значением, выставленным испытуемым рентгенологом по шкале уверенности, и «истинным» значением, установленным по данным КТ в бинарной шкале. Данная величина количественно отражает степень расхождения результатов рентгенологов с истинными значениями и выражена в условных единицах.

Дополнительно фиксировалось время анализа каждого изображения для анализа поиска возможных связей данного показателя с метриками точности.

По результатам завершенного исследования анализировались чувствительность, специфичность, точность и площадь под характеристической кривой (AUC ROC).

Статистический анализ.

Статистический анализ проводился при помощи программного обеспечения с открытой лицензией JASP 0.19.3.0 (JASP Team, Нидерланды). В ходе анализа количественных переменных рассчитывали средние значения и стандартные отклонения (M±SD), медианы и квартили (Me [LQ; UQ]). Для сравнения количественных переменных в трех группах применяли дисперсионный анализ, оценка нормальности распределений проводилась по критерию Шапиро-Уилка. Анализ чувствительности, специфичности и точности проводили с помощью ROС-анализа, рассчитывалась AUC ROC. Различия между группами признавали статистически значимыми при p < 0,05.

Результаты

Подробные результаты находятся в открытом доступе (см. раздел «Доступ к данным»).

Объекты исследования. Результаты проведённого исследования показали отсутствие достоверных различий показателей диагностической точности в группах рентгенологов с различным опытом работы: 1-5 лет (N=29), 6-10 лет (N=32), более 10 лет (N=39) (p = 0,172). Поэтому далее все показатели представлены для совокупности всех участников исследования.

Основные результаты исследования. Рассчитанные показатели точности рентгенологов в диагностике легочных узелков по данным РГ ОГК представлены на рисунке 2А. Гистограмма на рисунке 2Б отражает среднее время, затрачиваемое рентгенологом для анализа предложенных рентгенограмм. Среднее время анализа одного изображения по выборке врачей составило 21,2 с. Минимальное время – 3,0 с, максимальное – 256,8 с.

Число случаев, для которых принятые решения в той или иной степени соотносились с «истинными», представлены в таблице 1.

Таблица 1. Рассчитанные значения Delta по совокупности исследований

Delta, усл. ед.

0,00

0,25

0,50

0,75

1,00

Итого

Число исследований

6957

1166

44

754

1079

10000

В целом, изучение результатов исследований рентгенологов выявило высокие показатели диагностической точности несмотря на то, что в среднем тратили на анализ изображений относительно мало времени.

Если анализировать данные таблицы 1, то из 10 тысяч проанализированных рентгенограмм (всеми рентгенологами в совокупности) верная классификация с полной уверенностью рентгенолога наблюдалась только в 6957 случаях (69,57 %), в 8123 случаях (81,23 %) – верная классификация с полной и неполной степенью уверенности.

Обнаружена слабая положительная корреляция показателя точности рентгенолога со средним значением времени, затраченным на анализ одного случая. Коэффициент корреляции Спирмена rs=0,188.

На рисунке 3А представлена средняя величина Delta, рассчитанная для каждого исследования (случая). Дополнительно приведены диапазоны значений медианы, так как распределение значений Delta дискретное и отличается от нормального. На рисунке 3Б отражено среднее значение времени, потраченное на анализ каждого случая. Можно отметить умеренную положительную корреляцию между данными переменными: коэффициент корреляции Спирмена rs=0,340. То есть испытуемые имели тенденцию тратить больше времени на анализ случаев, в которых делали больше ошибок. При этом, если рассмотреть случаи из «красной» и «желтой» зон (случаи, в которых больше половины исследователей сделали ошибку или выразили неуверенность), из них только 2 принадлежит группе DN, 3 - группе LN. В 6 случаях из группы PP большинство исследователей не смогли обнаружить легочные узелки.

Ниже на рисунке 4А представлена рентгенограмма в прямой проекции на которой большинство исследователей не обнаружили узел. На рисунке 4Б - визуализация данного узла на КТ-изображении.

В группе DN изначально предполагались трудности при интерпретации рентгенограмм. Однако анализ результатов не показал достоверных различий в группах DN, PP, LN по величине Delta, количественно отражающей степень расхождения результатов, полученными рентгенологами, с истинными значениями. Тем не менее для анализа случаев данной группы рентгенологам потребовалось достоверно больше времени (Таблица 2).

Таблица 2. Показатели Delta и времени анализа одного случая в группах исследований DN, PP и LN

 

Delta, усл.ед.

Среднее время анализа 1 случая, с

 

DN

PP

LN

DN

PP

LN

N

2500

5000

2500

2500

5000

2500

Me

[LQ;UQ]

0

[0;0, 25]

0

[0;0, 25]

0

[0;0, 25]

19,4

[12, 1;31, 8]

14,9

[10, 1;24, 1]

13,6

[8, 9;22, 4]

M±SD

0,21±0,35

0,20±0,35

0,17±0,33

26,2±22,7

20,0±18,0

18,4±16,7

Искомые метрики диагностической точности 100 рентгенологов представлены в Таблице 3.

Таблица 3. Результаты оценки метрик диагностической точности рентгенологов в диагностике легочных узелков по данным РГ ОГК. Показатели, усредненные по группе испытуемых рентгенологов

 

Точность

AUC ROC

Чувствительность

Специфичность

M±SD

0,822±0,048

0,858±0,059

0,779±0,097

0,864±0,095

Обсуждение

Резюме основного результата исследования. Полученные в ходе исследования показатели точности, чувствительности, специфичности и AUC ROC рентгенологов в обнаружении легочных узлов могут быть использованы в дальнейшем для сравнительного анализа метрик диагностической точности новых автоматизированных методов детектирования легочных узлов (в частности, ИИ-сервисов), а также при оценке качества новых инструментов или подходов в диагностике образований легких.

Отметим, что среди пяти ранее протестированных ИИ-сервисов можно выделить лишь один, который превосходил рентгенолога по всем вышеуказанным метрикам в решении данной задачи [12]. Вопрос качества данного сервиса в задачах сегментации и классификации легочных узелков на данный момент остается открытым и требует проведения соответствующих исследований.

Ограничения исследования. Отметим, что выводы о пригодности той или иной технологии в практическом здравоохранении не стоит основывать лишь на анализе четырех показателей. Для каждой клинической задачи требуется индивидуальный подход и оценка применимости каждого ИИ-сервиса в отдельности [18]. Возможно, имея более низкие значения AUC ROC, метод обнаруживает патологию там, где у врачей возникают сложности. В таком случае технология может лечь в основу системы поддержки принятия решения и в совместной работе с врачом поможет достичь максимальных показателей диагностической точности [19].

Заключение

Оценка метрик диагностической точности 100 рентгенологов в диагностике легочных узелков продемонстрировали в среднем точность 0,822±0,048, чувствительность 0,779±0,097 и специфичность 0,864±0,095. Данные показатели могут быть использованы для сравнительного анализа соответствующих метрик, полученных при тестировании систем компьютерного зрения или других, альтернативных методов диагностики образований легких.

Дополнительная информация

Вклад авторов

Васильев Ю.А. — Определение концепции

Владзимирский А.В. — руководство исследованием, пересмотр и редактирование рукописи

Омелянская О.В. — привлечение финансирования, обеспечение исследования

Разницына И.А. — анализ данных, визуализация, написание черновика рукописи

Бусыгина Ю.С. — проведение исследования

Пестренин Л.Д.  — администрирование проекта

Никитин Н.Ю. — анализ данных

Арзамасов К.М. — определение концепции, валидация

Авторы одобрили рукопись (версию для публикации), а также согласились нести ответственность за все аспекты настоящей работы, гарантируют надлежащее рассмотрение и решение вопросов, связанных с точностью и добросовестностью любой её части

Этическая экспертиза

Исследование было проведено в соответствии с Хельсинкской декларацией (в редакции 2013 года) и одобрено Независимый этическим комитетом Московского регионального отделения Российского общества рентгенологов и радиологов (НЭК МРО РОРР) (протокол № 2/2020, от 20.02.2020). Информированное согласие было получено от всех участников исследования.

Согласие на публикацию

Неприменимо.

Источники финансирования

Данная статья подготовлена авторским коллективом в рамках НИР «Предпосылки для создания универсального (сильного) искусственного интеллекта в практическом здравоохранении», (№ ЕГИСУ: № 123031500004-5) в соответствии с Приказом от 17.12.2024 № 1184 "Об утверждении государственных заданий, финансовое обеспечение которых осуществляется за счет средств бюджета города Москвы государственным бюджетным (автономным) учреждениям подведомственным Департаменту здравоохранения города Москвы, на 2025 год и плановый период 2026 и 2027 годов" Департамента здравоохранения города Москвы

Раскрытие интересов

Авторы заявляют об отсутствии отношений, деятельности и интересов (личных, профессиональных или финансовых), связанных с третьими лицами (коммерческими, некоммерческими, частными), интересы которых могут быть затронуты содержанием статьи, а также иных отношений, деятельности и интересов за последние три года, о которых необходимо сообщить.

Заявление об оригинальности

При подготовке настоящей рукописи авторы не использовали ранее опубликованные сведения (текст, иллюстрации, данные).

Доступ к данным

Авторы предоставляют полный неограниченный доступ к данным, размещённым на сайте https://mosmed.ai/datasets/datasets/mosmeddata-rezultati-vrachebnogo-analiza-rg-ogk-s-nalichiem-i-otsutstviem-legochnih-uzlov

Генеративный искусственный интеллект

В работе с целью создания рукописи или значимой модификации ее частей (включая, иллюстрации) или иных материалов, представленных на рассмотрение в журнал, генеративный ИИ не использовался.

Рассмотрение и рецензирование

Направлена в редакцию журнала в инициативном порядке.

×

About the authors

Yuriy A. Vasilev

Research and Practical Clinical Center for Diagnostics and Telemedicine Technologies

Email: VasilevYA1@zdrav.mos.ru
ORCID iD: 0000-0002-5283-5961
SPIN-code: 4458-5608

MD, PhD

Russian Federation, 127051, Russian Federation, Moscow, Petrovka str., 24

Anton V. Vladzymyrskyy

Research and Practical Clinical Center for Diagnostics and Telemedicine Technologies;
I. M. Sechenov First Moscow State Medical University of the Ministry of Health of the Russian Federation (Sechenov University)

Email: vladzimirskijAV@zdrav.mos.ru
ORCID iD: 0000-0002-2990-7736
SPIN-code: 3602-7120

MD, PhD

Russian Federation, 127051, Russian Federation, Moscow, Petrovka str., 24; 119048, Russian Federation, Moscow, Trubetskaya St., 8, Bldg. 2

Olga V. Omelyanskaya

Research and Practical Clinical Center for Diagnostics and Telemedicine Technologies;
MIREA – Russian Technological University

Email: OmelyanskayaOV@zdrav.mos.ru
ORCID iD: 0000-0002-0245-4431
SPIN-code: 8948-6152
Russian Federation, 127051, Russian Federation, Moscow, Petrovka str., 24; 119454, Russia, Moscow, Vernadsky Avenue, 78

Irina A. Raznitsyna

Research and Practical Clinical Center for Diagnostics and Telemedicine Technologies

Author for correspondence.
Email: RaznitsynaIA@zdrav.mos.ru
ORCID iD: 0000-0003-4145-6947
SPIN-code: 9092-4490

кандидат физико-математических наук

Russian Federation, 127051, Russian Federation, Moscow, Petrovka str., 24

Yulia S. Busygina

Research and Practical Clinical Center for Diagnostics and Telemedicine Technologies

Email: busyus@mail.ru
ORCID iD: 0000-0002-4775-258X
SPIN-code: 4438-7273
Russian Federation, 127051, Russian Federation, Moscow, Petrovka str., 24

Lev D. Pestrenin

Research and Practical Clinical Center for Diagnostics and Telemedicine Technologies

Email: PestreninLD@zdrav.mos.ru
ORCID iD: 0000-0002-1786-4329
SPIN-code: 7193-7706
127051, Russian Federation, Moscow, Petrovka str., 24

Nikita Y. Nikitin

Research and Practical Clinical Center for Diagnostics and Telemedicine Technologies

Email: Nikitin5@yandex.ru
ORCID iD: 0000-0002-3193-8320
SPIN-code: 3448-0799

PhD

Russian Federation, 127051, Russian Federation, Moscow, Petrovka str., 24

Kirill M. Arzamasov

Research and Practical Clinical Center for Diagnostics and Telemedicine Technologies;
Samara State Medical University

Email: ArzamasovKM@zdrav.mos.ru
ORCID iD: 0000-0001-7786-0349
SPIN-code: 3160-8062

MD, PhD

127051, Russian Federation, Moscow, Petrovka str., 24; 443099, Russian Federation, Samara, Chapayevskaya str., 89

References

Supplementary files

Supplementary Files
Action
1. JATS XML

Copyright (c) Eco-Vector

Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.

СМИ зарегистрировано Федеральной службой по надзору в сфере связи, информационных технологий и массовых коммуникаций (Роскомнадзор).
Регистрационный номер и дата принятия решения о регистрации СМИ: серия ПИ № ФС 77 - 79539 от 09 ноября 2020 г.