人工智能技术在实验室医学中的应用经验、有效性与应用场景:系统综述

封面图片


如何引用文章

全文:

详细

论证。随着实验室医学领域数据量的持续增长,该领域亟需实现常规流程的自动化与标准化,以减轻医务人员的工作负担,使其能够专注于更具专业性的任务。机器学习模型和人工神经网络能够识别图像并分析大规模数据,为其在实验室中承担常规任务的应用与整合提供了潜力。

目的。分析全球文献中人工智能在实验室医学中的应用情况,评估其在解决现有问题方面的能力,并识别限制人工智能融入实验室流程的潜在障碍。

方法。文献检索通过PubMed检索系统、实验室成品解决方案制造商官网以及其他综述文章的参考文献进行。此外,还使用Mendeley软件进行参考文献管理。时间范围为2019年至2024年。提取信息包括文献计量数据、研究领域、主要方法学特征、人工智能与医务人员的诊断效能指标、参与医务人员的数量及经验水平,以及其在实际应用中的验证结果。研究质量评估采用改良版QUADAS-CAD问卷工具。

结果。本综述共纳入23篇文献,其中包括分别针对实验室分析前阶段(1项)、分析阶段(19项)和分析后阶段(3项)的研究。大多数研究集中于细胞学和微生物学领域,分别占48%和35%。人工智能在实验室各阶段任务的解决方面表现出较高的效能。此外,其诊断准确性可与医务人员水平相当,且决策速度显著更快。然而,所有研究均存在系统偏倚风险,主要原因包括样本分布不平衡、缺乏外部验证,以及对数据本身及其分析方法的描述不够详细。

结论。人工智能在诊断准确性和处理速度方面具有较高的潜力,因此被认为是推进实验室常规流程自动化和推广应用的有前景工具。然而,为实现这一目标,有必要:对人工智能研究方法进行标准化,以降低系统偏倚风险;为实验室建立参考标准,以确保结果的可重复性与可推广性;提高医务人员和患者对其工作机制的认知,以消除对人工智能的成见;制定可靠的个人数据保护机制,以保障人工智能应用过程中的数据安全。

全文:

ОБОСНОВАНИЕ

Лабораторная медицина — крайне нагруженная непрерывным потоком анализов и данных область. Классические стандартные протоколы лабораторной диагностики требуют от медицинских специалистов больших затрат времени и постоянной концентрации внимания [1, 2]. Именно в этой области остро стоит вопрос автоматизации процессов с целью снятия с медицинских работников нагрузки, связанной с рутинными процедурами, и переключения их внимания и усилий на более сложные специализированные задачи [3].

Технологии искусственного интеллекта (ИИ), включающие в широком понимании как относительно простые методы машинного обучения, так и искусственные нейронные сети, быстро развиваются в последнее десятилетие и имеют потенциал стать удачным решением в отношении автоматизации рутинных процессов лабораторной медицины.

ЦЕЛЬ

Проанализировать мировую литературу в области применения технологий искусственного интеллекта в лабораторной медицине, оценить их возможности в отношении решения существующих задач, а также выявить возможные проблемы, затрудняющие внедрение искусственного интеллекта в лабораторные процессы.

МЕТОДЫ

Стратегия поиска

Поиск публикаций выполняли с помощью поисковой системе PubMed [4], на сайтах производителей программ на основе технологий ИИ для лабораторной медицины, а также использовали метод «снежного кома» — поиск исследовательских работ в списках литературы публикаций.

Поисковая система PubMed. Временной интервал: с 2019 года по 01.06.2024. Поисковый запрос выглядел следующим образом: ((((((((((((artificial intelligence) OR (deep learning)) OR (machine learning) OR (computer vision)) AND (clinical laboratory)) OR (laboratory medicine)) OR (clinical deployment)) AND (pathomorphology)) OR (digital pathology))) AND (computer-aided diagnosis)) OR (diagnostics)) AND (pathological image analysis)) NOT (radiomics).

В разделе фильтров выбраны следующие опции:

  • для «Text Availability» с целью отбора статей с доступным полным текстом: Abstract, Full Text;
  • для «Article Attribute» с целью отбора статей, которые содержат ссылки на ассоциированные клинические исследования либо наборы данных, подтверждающие достоверность полученных результатов: Associated Data;
  • для «Article Type» с целью отбора наиболее убедительных доказательств: Clinical Trial, Randomized Controlled Trial.

Программа для управления библиографической информацией Mendeley. Временной интервал: 2019–2024 гг. Поиск выполняли с использованием ключевого слова: «artificial intelligence laboratory medicine».

Для поиска исследовательских работ с доказанным применением технологий ИИ в лабораторной практике изучены сайты производителей, упомянутые в отобранных публикациях, в частности разделы с научной литературой по использованию выпускаемого оборудования:

  • Visiopharm1;
  • CyPath Lung2;
  • EasyCell3;
  • Copan4.

Временной интервал: 2023–2024 гг. Искали публикации, подтверждающие внедрение технологий ИИ в работу лаборатории.

Литературные обзоры, демонстрирующие опыт применения технологий ИИ в лабораторной медицине в период с 2023 по 2024 год: 2 публикации, отобранные из 12 найденных [2, 5].

Критерии включения

  • публикации, имеющие как минимум английское резюме;
  • статьи, опубликованные в рецензируемых научных журналах;
  • препринты;
  • статьи, опубликованные в конференционных сборниках.

Критерии исключения

  • публикации, не связанные с лабораторной медициной и компьютерным зрением;
  • публикации, не охватывающие вопросы медицины человека;
  • обзоры литературы;
  • конференционные тезисы.

Поисковая стратегия включала два этапа:

  • первый — сначала анализировали названия и резюме всех найденных по поисковым запросам работ, затем отбирали соответствующие нашим задачам исследования;
  • второй — анализировали полные тексты и их доступность из отобранного списка работ и составляли выборку для основного анализа обзора.

Публикации отбирал один эксперт, а финальный список включённых работ оценивали два эксперта. В качестве экспертов выступали научные сотрудники с опытом работы в медицинской информатике более 10 лет.

Наш обзор включает публикации, демонстрирующие применение технологий ИИ на всех трёх основных этапах лабораторного анализа:

  • преаналитический;
  • аналитический;
  • постаналитический.

Поскольку их задачи и методы различны, каждый из этих этапов в систематическом обзоре мы рассмотрим отдельно.

Извлечение информации и оценка качества статьи

Из полных текстов отобранных статей извлекали следующую информацию:

  • библиометрические данные — имя первого автора, название статьи, год выхода, DOI (Digital Object Identifier — цифровой идентификатор объекта), название журнала, импакт-фактор журнала, страну выполнения исследования;
  • направление исследований и их основные характеристики (объём выборки, дизайн исследования, наличие валидации на внешних данных, использованные лабораторные методы и модели ИИ);
  • показатели диагностической эффективности ИИ [чувствительность, специфичность, площадь под кривой (AUC), точность, а также некоторые другие критерии эффективности, традиционные для лабораторной медицины];
  • сравнения диагностической эффективности ИИ и медицинских специалистов;
  • количество медицинских специалистов и уровень их квалификации;
  • оценка времени работы моделей машинного обучения и систем на основе ИИ (в том числе в сравнении с медицинскими специалистами);
  • оценка экономической эффективности потенциального внедрения технологий ИИ;
  • подтверждённые результаты внедрения ИИ.

Мы рассчитали средние показатели диагностической эффективности с использованием всех работ, где они обнаружены: медиану и 95% доверительный интервал (ДИ). Провели оценку качества отобранных публикаций с помощью модифицированного опросника QUADAS-CAD (Quality Assessment of Diagnostic Accuracy Studies Computer-Aided Detection) [6], разработанного для исследований с использованием ИИ.

Извлечение информации и оценка качества работ проведены одним экспертом. Результаты оценивали два эксперта с опытом работы в медицинской информатике более 10 лет.

РЕЗУЛЬТАТЫ

Поиск литературы и отбор работ

На первом этапе найдено 2036 публикаций:

  • поисковая система PubMed — 551;
  • программа для управления библиографической информацией Mendeley — 1335;
  • сайты — 17;
  • литературные обзоры — 133.

На втором этапе отобрано 58 публикаций и исключено 1978. В основной анализ включили 23 публикации (Приложение 1). Из систематического обзора исключили 35 публикаций (Приложение 2). Среди основных причин исключения выделили следующие:

  • отсутствие доступа к полному тексту;
  • отсутствие факта применения технологий ИИ;
  • техническая разработка метода без анализа медицинских данных.

Из включённых работ одна посвящена преаналитическому этапу лабораторного анализа, 19 — аналитическому, 3 — постаналитическому.

Основные характеристики исследований, представленных в публикациях, включённых в систематический обзор, продемонстрированы в Приложении 3.

Характеристики выборок и используемые модели машинного обучения или готовые коммерческие решения на основе ИИ, описанные в исследованиях, продемонстрированы в Приложении 4.

Преаналитический этап

В исследовании, посвящённом преаналитическому этапу лабораторного анализа, рассматривают возможности применения технологий ИИ для выявления случаев неправильной маркировки пробирок [7]. Их эффективность в контроле качества сравнивают с результатами, достигаемыми медицинским персоналом лаборатории. Для такой проверки стандартно используют Δ-проверку (Delta-Check Methods) — сравнение последовательных во времени лабораторных результатов от одного и того же пациента и выявление ошибок при сильных их расхождениях. Рассматриваемое исследование выполнено ретроспективно, без внешней валидации, а также без тестирования в реальных лабораторных условиях. Ошибку маркировки симулировали на 50% уровне. Авторы разработали, обучили и протестировали в среде R 8 моделей машинного обучения (Приложение 5). Для сравнения использовали 50 медицинских работников с разным опытом (Приложение 6). Следует отметить, что не обнаружено достоверной связи (p >0,1) между точностью контроля качества медицинских работников и их стажем. Все 8 моделей (0,865–0,921) превзошли медицинский персонал (0,778) по уровню точности решения задачи выявления неправильной маркировки (см. Приложение 6). Модель нейронной сети была наиболее эффективной (0,921), модель простого дерева решений — наименее (0,865).

Аналитический этап

Основной объём найденных по нашим запросам публикаций (19) демонстрирует исследования, выполненные на аналитическом этапе лабораторного анализа. Они выполнены в области цитологии, микробиологии, гистопатологии, паразитологии либо на пересечении этих областей.

В сфере цитологии задачи распределены следующим образом:

  • диагностика опухолевых заболеваний — 2 исследования (анализ крови; анализ мокроты) [8, 9];
  • диагностика гематологической патологии — 6 исследований (анализ крови — 5; мазок костного мозга — 1) [10–15].

В области микробиологии задачи работ распределены следующим образом:

  • оценка устойчивости кишечной палочки (Escherichia coli) к 19 видам антибиотиков — одно исследование (общий анализ крови и мочи) [16];
  • детекция стрептококков группы A (Streptococcus) — одно исследование (посев слизи из ротоглотки на агаре и кровяном агаре) [17];
  • сегрегация патоген-положительных и -отрицательных посевов мочи с помощью подсчёта колоний без определения морфологии клеток — одно исследование (посев мочи на кровяном агаре и агаре МакКонки) [18];
  • идентификация микобактерий в тканях человека с использованием окрашивания по Цилю–Нильсену — два исследования [19, 20];
  • диагностика вагинитов с использованием вагинальных мазков — два исследования [21, 22].

В двух публикациях продемонстрировано совместное применение методов цитологии и микробиологии — анализировали осадок мочи для выявления потенциальных патогенов и диагностики инфекций мочевыводящих путей, при этом использовали детекцию и подсчёт элементов осадка мочи [23, 24].

B.A. Mathison и соавт. [25] выполняли детекцию кишечных простейших (Protozoa) в окрашенных трихромом мазках кала человека. В качестве объектов распознавания выступали:

  • кишечная лямблия (Giardia duodenalis), её цисты и трофозоиты;
  • кишечные амёбы (Entamoeba hartmanni, Entamoeba non-hartmanni, или крупная Entamoeba spp.) и их трофозоиты;
  • Dientamoeba fragilis;
  • бластоцисты (Blastocystis );
  • хиломастикс (Chilomastix mesnili) и его трофозоиты;
  • карликовые амёбы (Endolimax nana) и их трофозоиты;
  • Iodamoeba buetschlii и её трофозоиты;
  • эритроциты;
  • лейкоциты.

Кроме того, модели обучили также для идентификации дрожжей как антикласса с целью предотвращения их ошибочной классификации. Для микроорганизмов Entamoeba spp., C. mesnili, E. nana и I. buetschlii модель обучили распознавать только активную стадию трофозоитов. Тем не менее она не идентифицировала их цисты в связи с недостаточным числом обучающих образцов и слабой выраженностью их морфологии в используемом методе окрашивания.

Из 19 включённых в обзор исследований, проведённых на аналитическом этапе лабораторного анализа, были:

  • многоцентровыми (использовали данные из нескольких лабораторий) — 8 (42%) [9, 12, 13, 15, 18, 21];
  • одноцентровыми (использовали данные только из одной лаборатории) — 11 (55%) [7, 8, 10, 11, 14, 16, 17, 19, 22, 23, 25];
  • ретроспективными — 17 (90%) [8–11, 13–21, 23–26];
  • проспективными — 1 (5%) [22];
  • ретроспективными с включённым проспективным тестом — 1 (5%) [12].

Внешнюю валидацию модели использовали в двух (10%) исследованиях [12, 13].

Для описания объёма использованной выборки в исследованиях используют разные показатели (см. Приложение 3):

  • число пациентов;
  • число образцов (мазков, анализов);
  • число изображений и их областей.

Объём выборки может сильно варьировать между разными исследованиями:

  • число пациентов — 103–8021;
  • число образцов — 167–212 554;
  • число изображений — 510–695 030;
  • количество областей изображения — от 260 тыс. до 7 млн.

Если в исследовании отмечено наличие нескольких показателей объёма выборки, то число образцов всегда значительно превышает количество пациентов, а число проанализированных изображений — количество образцов.

Информация о возрасте пациентов найдена в 8 публикациях из 19, при этом возрастные интервалы широко варьируют как внутри исследований, так и между работами. Информация о половом составе выборок найдена в 10 работах из 19. Относительно равное соотношение полов в выборках выявлено в двух исследованиях [8, 12]. Однако следует отметить, что анемию чаще диагностируют у женщин [12]. Исследования, посвящённые диагностике инфекций мочевыводящих путей, характеризуются преобладанием женщин [16, 23], поскольку эта патология чаще представлена у них. В ряде работ наблюдают неравномерное распределения пола в выборке по неясным причинам [9, 15, 20, 26]. Расовый и этнический состав пациентов приведён в одном исследовании [9]:

  • «белые» пациенты с отсутствием злокачественных новообразований — 110 (90,2%);
  • «белые» пациенты с подтверждённым злокачественным новообразованием — 25 (89,3%);
  • «небелые» пациенты с отсутствием злокачественных новообразований — 12 (9,8%);
  • «небелые» пациенты с подтверждённым злокачественным новообразованием — 3 (10,7%);
  • латиноамериканцы с отсутствием злокачественных новообразований — 15 (12,3%);
  • латиноамериканцы с подтверждённым злокачественным новообразованием — 8 (28,6%);
  • не латиноамериканцы с отсутствием злокачественных новообразований — 104 (85,2%);
  • не латиноамериканцы с подтверждённым злокачественным новообразованием — 18 (64,3%);
  • пациенты с отсутствием злокачественных новообразований и без данных о расовой и этнической принадлежности — 3 (2,5%);
  • пациенты с подтверждённым злокачественным новообразованием и без данных о расовой и этнической принадлежности — 2 (7,1%).

В 12 исследованиях авторы использовали собственные модели, разработанные с помощью различных алгоритмов машинного обучения. В 7 исследованиях применяли модели в виде готовых коммерческих решений, в которых:

  • сообщали об отсутствии конфликта интересов — 2 [11, 14];
  • отсутствовала информация об отсутствии конфликта интересов — 2 [8, 26];
  • присутствует конфликт интересов, когда производитель оборудования финансирует исследование (например, предоставляет оборудование и материалы для проведения исследования либо авторы работы одновременно являются или являлись в прошлом сотрудниками фирмы-продавца оборудования) — 3 [9, 17, 18].

Сравнительный анализ моделей, полученных с помощью различных алгоритмов, проводили в 6 исследованиях [9, 12, 15, 16, 23, 24], их диагностической эффективности в сравнении с медицинскими специалистами — 9 [8, 11, 12, 17, 18, 20–22, 25].

Диагностическая эффективность искусственного интеллекта на аналитическом этапе

Данные о диагностической эффективности ИИ представлены в Приложении 5.

Средние обобщённые показатели эффективности моделей машинного обучения достаточно высоки:

  • чувствительность — 0,923 (95% ДИ 0,921–0,924), n=34;
  • специфичность — 0,940 (95% ДИ 0,939–0,942), n=34;
  • значение AUC — 0,915 (95% ДИ 0,914–0,916), n=14;
  • точность — 0,929 (95% ДИ 0,928–0,930), n=37.

Показатели, характеризующие эффективность, могут сильно варьировать в разных областях лабораторной медицины в соответствии с решаемыми задачами.

Так, модели машинного обучения на основе результатов анализа крови для диагностики анемии [12], а также опухолевых заболеваний и анемии [10] обладают следующими показателями эффективности (минимальное и максимальное значение):

  • чувствительность — 0,930–0,980;
  • специфичность — 0,920–1,000;
  • значение AUC — 0,900–0,990.

Модели машинного обучения, включающие данные результатов мазков мокроты, для диагностики опухолевых заболеваний [9] также имеют высокие показатели (минимальное и максимальное значение):

  • чувствительность — 0,820–0,920;
  • специфичность — 0,770–0,880;
  • значение AUC — 0,850–0,940).

Модели машинного обучения для диагностики опухолевых заболеваний, полученные с использованием результатов мазков костного мозга [13], обладают следующими показателями эффективности (минимальное и максимальное значение):

  • чувствительность — 0,857–0,992;
  • специфичность — 0,917–0,933;
  • значение AUC — 0,970–0,990;
  • точность — 0,914–0,929.

Качество идентификации и подсчёта клеток крови сильно варьирует в зависимости от типа анализируемых клеток. S. Yoon и соавт. [11] приводят метрики диагностической точности для классификации клеток с помощью цифрового морфологического анализатора, на финальном этапе полученные результаты врач-гематолог проверил и доработал. Однако подробный алгоритм их проверки экспертом в статье не представлен, также мы не обнаружили его в описании цифрового морфологического анализатора Vision Pro® (West Medica, Австрия) на сайте производителя5. Чувствительность анализатора была высокой в отношении нормальных лейкоцитов и ядросодержащих эритроидных клеток крови (0,801–0,980), и относительно низкой — для бластов, миелоцитов и метамиелоцитов (0,765, 0,480 и 0,505, соответственно). В то же время отмечена высокая специфичность для всех типов клеток (0,981–1,000).

Е.А. Елагина и соавт. [15] провели сравнительный анализ различных моделей машинного обучения для распознавания клеток крови. Следует отметить, что классификационные модели свёрточной нейронной сети и опорных векторов обладали наибольшей эффективностью в отношении диагностической точности. При этом модель опорных векторов страдала от переобучения и требовала значительных вычислительных затрат. Классификационная модель на основе метода k-ближайших соседей обладала меньшей диагностической точностью в сравнении с моделями свёрточной нейронной сети и опорных векторов.

H. Ayyıldız и соавт. [16] оценивали устойчивость E. coli к антибиотикам с помощью методов машинного обучения. Точность моделей варьировала в зависимости от используемого метода машинного обучения для их создания и типа антибиотика: 0,680–0,980. Кроме того, с помощью технологий ИИ с высокой диагностической точностью возможно определять микобактерии в тканях человека [19, 20] (чувствительность — 0,957–0,987; специфичность — 0,987–1,000; значение AUC — 0,980; точность — 0,983–0,988). Показатели эффективности моделей машинного обучения для диагностики бактериальных вагинитов могут варьировать в зависимости от их задач: чувствительность — 0,841–0,957; специфичность — 0,659–0,994 [21, 22].

С помощью модели машинного обучения возможно эффективно идентифицировать стрептококки в посевах на агаре, её чувствительность и специфичность составляет 0,906 и 0,940 соответственно. Модель для детекции колоний бактерий в посевах мочи демонстрирует высокий показатель чувствительности (0,998) и средний специфичности (0,720) [17].

R.J. Burton и соавт. [23] продемонстрировали эффективность использования технологий ИИ с целью снижения нагрузки на лабораторию посредством уменьшения числа посевов. Различные модели машинного обучения использовали для анализа осадка мочи (подсчёт собственных клеток и бактерий) с целью выявления необходимости дальнейшего посева. Авторы выявили, что модель экстремального градиентного бустинга обладала наибольшей эффективностью. Так, её применение по сравнению со стандартной автоматизированной микроскопией с помощью эвристической модели приведёт к тому, что результат исследования одного из четырёх пациентов будет переведён из ложноположительного в истинно отрицательный, и одного из 11 — из ложноотрицательного в истинно положительный. Авторы утверждают, что результаты исследования беременных и пациентов детского возраста необходимо анализировать в качестве отдельных выборок. D. Avci и соавт. [24] разработали модель для детекции разных элементов осадка мочи, созданную на основе свёрточной нейронной сетей, которая продемонстрировала высокую точность — 0,962–0,986.

M.B. Wallace и соавт. [26] изучали возможное снижение количества ложноотрицательных результатов обнаружения кишечных неоплазий при использовании технологий ИИ. Для этого пациенты проходили две последовательные колоноскопии в один день. Пациентам 1-й группы сначала проводили колоноскопию с использованием технологий ИИ, а затем — без них. Во 2-й группе, напротив, первоначально выполняли колоноскопию без применения технологий ИИ, после чего проводили повторное исследование с их использованием. Авторы рассчитывали показатель пропуска аденомы (AMR): количество гистологически подтверждённых поражений, обнаруженных при второй колоноскопии, делённое на общее количество поражений, обнаруженных при первой и второй колоноскопии, выполненной в течение одного дня. Рассчитывали также среднее количество поражений, обнаруженных при второй колоноскопии, и долю ложноотрицательных случаев (отсутствие поражений при первой колоноскопии и как минимум одно при второй). Показатель AMR в 1-й и 2-й группах составил 0,155 (38 из 246) и 0,324 (80 из 247) соответственно. Следует отметить, что он был ниже в 1-й группе при поражениях 5 мм и менее (0,159 против 0,358) и их неполипоидном типе (0,168 против 0,458). Кроме того, показатель AMR был ниже как в проксимальном (0,183 против 0,325), так и дистальном отделе толстого кишечника (0,108 против 0,321). Среднее количество аденом при второй колоноскопии — меньше в 1-й группе по сравнению со 2-й (0,330±0,630 против 0,700±0,970, p <0,001). Частота ложноотрицательных результатов в 1-й и 2-й группах составила 0,068 (3 из 44 пациентов) и 0,296 (13 из 44) соответственно.

Сравнение диагностической точности искусственного интеллекта и медицинских работников на аналитическом этапе лабораторного анализа

Сравнительный анализ диагностической точности ИИ и медицинских работников на аналитическом этапе лабораторного анализа представлен в Приложении 6.

В исследованиях с проведённым анализом диагностической эффективности ИИ и медицинских работников показано, что она либо превосходит людей [12, 17, 20], либо сопоставима с ними [8, 11, 17, 18, 21, 22]. Согласно результатам двух исследований, при работе с одним пациентом ИИ затрачивает меньше времени, чем человек, что свидетельствует о его более высокой скорости обработки данных [12, 20]. В некоторых случаях, например при подсчёте разных клеток крови, результат сильно варьирует в зависимости от типа клеток: для одних — согласованность между моделями машинного обучения и медицинским работником высока, а для других — низкая [11]. Рассмотрим более подробно отдельные случаи.

Модель машинного обучения, позволяющая предсказывать низкую концентрацию ферритина в крови на основании общего клинического анализа крови и содержания С-реактивного белка, обладала более высокой диагностической эффективностью (чувствительность — 0,930–0,980; специфичность — 0,920) по сравнению с врачами клинической лабораторной диагностики (чувствительность — 0,830–0,880; специфичность — 0,910–0,920). Кроме того, применение ИИ позволяет значительно сократить время на принятие решения: менее 1 с на пациента против 19–20 с у врача и 13–16 с при использовании ИИ в качестве вспомогательного инструмента. Авторы полагают, что низкое содержание ферритина у пациентов с анемией возможно точно предсказать с помощью модели машинного обучения на основании результатов рутинных лабораторных исследований [12].

В случае диагностики и стадирования злокачественных новообразований с помощью индекса пролиферативной активности опухолевой клетки (Ki-67) оценивают согласованность результатов, полученных при анализе ИИ гистологических исследований, и стандартного протокола. Для количественного показателя Ki-67 использовали коэффициент внутриклассовой корреляции, который составил 0,960 (95% ДИ 0,940–0,980), а для оценки стадии заболевания применяли критерий квадратичного взвешенного κ — 0,860 (95% ДИ 0,810–0,910). Полученные результаты демонстрируют высокую степень согласованности между методами. Авторы полагают, что использование ИИ при определении значения Ki-67 обеспечивает сопоставимую диагностическую точность с ручной оценкой, при этом выступая в роли эффективного вспомогательного инструмента, способного сэкономить время при диагностике патологий [8].

T.T. Van и соавт. [17] оценивали способность программного обеспечения PhenoMATRIX® (Copan Diagnostics Inc., Соединённые Штаты Америки) с хромогенным модулем обнаружения на основе ИИ автоматически идентифицировать колонии стрептококка группы А, выращенные на хромогенном агаре Colorex Strep A agar® (CHROMagar, Франция). Данные, полученные с помощью программного обеспечения, сравнивали с результатами ручного считывания медицинскими лаборантами, обладающими опытом интерпретации хромогенных сред. Программное обеспечение на основе ИИ продемонстрировало более высокую чувствительность в сравнении с лаборантами при сопоставимой специфичности. Авторы считают, что его использование для обнаружения колоний стрептококков группы А на хромогенной питательной среде может оптимизировать рабочий процесс за счёт повышения скорости диагностики. Отметим, что в Российской Федерации интерпретацию результатов лабораторных исследований может проводить только врач, что снижает ценность полученных результатов.

S. Yoon и соавт. [11] в своём исследовании при подсчёте лейкоцитов вычисляли разницу между их количеством, определённым тремя разными методами:

  • с помощью ручного подсчёта, который проводили два врача-гематолога с использованием светового микроскопа на 200x увеличении;
  • с помощью цифрового морфологического анализатора Vision Pro® (West Medica, Австрия);
  • с помощью данного цифрового морфологического анализатора с конечной реклассификацией результата экспертом (в соответствии с нераскрытой методикой разработчика программного обеспечения).

Для разных типов клеток наблюдают высокую степень вариабельности согласованности между тремя способами подсчёта.

M.L. Faron и соавт. [18] применяли программное обеспечение на основе ИИ WASPLab® (Copan, Италия) для автоматического анализа культур мочи с использованием кровяного агара и агара МакКони. Результаты ручного подсчёта выступали в качестве референс-теста. Подсчёт колоний в посевах мочи с помощью программного обеспечения характеризовался следующими показателями эффективности: чувствительности и специфичности — 0,998 и 0,720 соответственно. Авторы полагают, что его использование для анализа изображений является высокочувствительным, поэтому возможно внедрение в лаборатории для пакетного анализа отрицательных культур с целью улучшения рабочего процесса. Несоответствие между мануальным и автоматическим подсчётом связано с наличием микроколоний. Важной задачей для автоматизации подсчёта культур остаётся стандартизация пороговых значений выявления колоний. Лаборатории, представившие свои результаты для исследования, использовали разные критерии для определения положительных и отрицательных результатов, что затрудняет использование технологий ИИ и снижает финальную эффективность инструмента.

S. Zurac и соавт. [20] предложили автоматический метод идентификации Mycobacterium tuberculosis в образцах, окрашенных по методу Циля–Нильсена, и в тканях человека с использованием глубоких нейронных сетей. Данный метод продемонстрировал более высокие диагностические результаты (чувствительность — 0,957; специфичность — 1,000; точность — 0,983) в сравнении с патологоанатомами (чувствительность — 0,391–0,957; специфичность — 0,756–0,946; точность — 0,833). Среднее время, затрачиваемое патологоанатомами на исследование образца, варьировало от 5,48 до 17,06 мин: на анализ положительных слайдов уходило меньше времени, тогда как на отрицательные (истинно или ложноотрицательные) — больше. Для каждого специалиста наибольшая продолжительность обследования зафиксирована в отношении отрицательных случаев (истинно отрицательный для семи врачей и ложноотрицательный для одного), а наименьшая — истинно положительных. Время, затраченное патологоанатомами на исследование образца с помощью ИИ, варьировало от 9 с до 2 мин для положительных слайдов (в среднем 0,61 мин). Таким образом, автоматический метод идентификации на основе технологий ИИ, использованный в работе, экономит как минимум треть времени специалиста. Кроме того, он позволяет снижать вероятность человеческих ошибок, вызванных усталостью и потерей внимания.

В двух исследованиях сравнивали эффективность технологий ИИ и медицинских работников в диагностике вагинитов. В данных работах диагностическая точность ИИ сопоставима с результатами, показанными медицинскими работниками [21, 22]. В частности, в исследовании Z. Wang и соавт. [21] чувствительность модели свёрточной нейронной сети составила 0,914, а у медицинских специалистов (трёх лаборантов и двух врачей-акушеров-гинекологов) — 0,943. Она продемонстрировала более высокую специфичность (0,913 против 0,731) и точность (0,893 против 0,837). Авторы отмечают, что изменение качества изображений (например, цвета, яркости) влияет на точность работы модели свёрточной нейронной сети. Результаты данных исследований свидетельствуют о перспективности использования автоматизированной микроскопии для повышения качества первичной диагностики инфекционных и неинфекционных вагинитов.

B.A. Mathison и соавт. [25] выявили высокую степень согласованности между моделью свёрточной нейронной сети и медицинскими лаборантами при обнаружении и классификации кишечных простейших в образцах кала, окрашенных трихромом. Уровень положительной и отрицательной согласованности составил 0,989 (95% ДИ 0,938–1,000) и 0,981 (95% ДИ 0,934–0,998) соответственно. Модель показала высокую воспроизводимость при анализе слайдов, содержащих несколько классов, один класс или не содержащих паразитов. Авторы считают, что цифровое сканирование слайдов в сочетании с протестированной моделью свёрточной нейронной сети — надёжный инструмент, дополняющий традиционные методы обнаружения кишечных простейших.

Подтверждённые результаты внедрения технологий искусственного интеллекта на аналитическом этапе лабораторного анализа

S. Kurstjens и соавт. [12] внедрили разработанную модель машинного обучения в работу лаборатории в тестовом режиме на 1 мес. Python скрипт реализован во внутренней лабораторной системе. В октябре 2021 г. проспективно проанализированы все результаты анализов взрослых пациентов первичного звена с анемией. Концентрацию ферритина измеряли у всех взрослых. В течение 21 дня при анализе данных 391 уникального пациента модель машинного обучения позволила выявить 18 новых случаев дефицита железа, не выявленных ранее. Авторы полагают, что технологии ИИ позволяют точнее и быстрее диагностировать низкое содержание железа в крови, что позволяет им быть полезным вспомогательным инструментом для врачей. Однако отмечены некоторые ограничения. Например, данная модель валидирована, поэтому её можно использовать в группе пациентов с определёнными характеристиками — взрослые пациенты с диагностированной анемией. Кроме того, следует учитывать, что в разных лабораториях используют различные референсные значения содержания ферритина в крови.

Ни в одном из включённых исследований не анализировали экономическую эффективность внедрения технологий ИИ в лабораторную практику.

Постаналитический этап

Исследования, реализованные на постаналитическом этапе лабораторного анализа, выполнены в области контроля качества — направлены на поиск ошибок и аномальных значений в результатах анализов. Следует отметить, что работы с использованием технологий ИИ на постаналитическом этапе проводили преимущественно в следующих направлениях:

  • анализ больших данных (Big Data);
  • симуляции данных (например, искусственного внесения в данные ошибки);
  • Δ-анализ — сравнительное исследование последовательных во времени анализов одного и того же пациента.

Во всех трёх исследованиях показано превосходство ИИ по сравнению с классическими статистическими методами PBRTQC (Patient-Based Real-Time Quality Control) контроля качества в контексте показателей эффективности.

Y. Liang и соавт. [27] изучали новый протокол стабильности данных путём объединения Δ-данных с методами машинного обучения для улучшения возможностей обнаружения событий контроля качества. Авторы сравнивали данные Δ-типа и данные одного типа, обработанные с использованием пределов усечения в PBRTQC на основе статистического метода. Сравнения проводили для семи параметров крови (см. Приложение 3). В качестве клинического показателя использовали также количество затронутых пациентов от начала внесения систематической ошибки до её обнаружения, оптимальное значение которого должно быть минимальным. Результаты исследования показали, что диагностические параметры модели «случайного леса» значительно превосходят (см. Приложение 5) стандартные статистические методы PBRTQC.

R. Zhou и соавт. [28] провели сравнительный анализ различных алгоритмов постаналитического контроля качества биохимических тестов, направленных на определение содержания общего простатоспецифичного антигена. В исследовании рассмотрены четыре традиционные модели контроля качества (PBRTQC) — Moving Average; Moving Median; Moving Standard Deviation; Moving Sum of Number of Patient Results. Кроме того, авторы сравнивали эффективность трёх моделей машинного обучения — «случайного леса», опорных векторов и нейронной сети. Также протестирован алгоритм слияния информационной энтропии, объединяющий все три модели машинного обучения. При симуляции в данные вносили ошибки восьми разных уровней (0,01–0,20 мкг/л), а также использовали шесть вариантов блоков различного размера. Все модели машинного обучения и их комбинация превосходили методы стандартных алгоритмов PBRTQC по параметрам диагностической точности. Модель слияния превосходила по эффективности каждую из трёх моделей машинного обучения по отдельности. Модель «случайного леса» предрасположена к переобучению. Модель опорных векторов демонстрировала затруднения при множественной классификации, в то время как модель нейронной сети столкнулась с трудностями при принятии решений. Модель слияния по точности превосходила следующие модели:

  • опорных векторов — на 8,7%;
  • «случайного леса» — на 9,6%;
  • нейронной сети — на 6,9%;
  • стандартные PBRTQC — на 20%.

Кроме того, эффективность методов PBRTQC варьировала в зависимости от уровня внесённой ошибки, тогда как модели машинного обучения демонстрировали стабильную работу независимо от её величины.

H. Wang и соавт. [29] в своём исследовании тестировали возможности нескольких моделей машинного обучения в отношении верификации данных биохимических тестов, включающих 52 биохимических параметра. Финальная обобщённая модель показала уровень прохождения и ложноотрицательных результатов 89,60 и 0,095% соответственно. Полученная модель позволила сократить количество недействительных отчётов примерно на 80% по сравнению с теми, которые оценивали с помощью стандартного алгоритма, повысив эффективность работы и снизив нагрузку на персонал биохимической лаборатории. Примечательно, что два обнаруженных ложноотрицательных отчёта, принадлежали пациентам с экстремальными для выборки значениями возраста: 4 мес. и 92 года. Кроме того, результаты (уровень прохождения) стандартного лабораторного алгоритма (50,20–65,10%) флуктуировали в течение рабочего процесса, тогда как для модели машинного обучения они были относительно стабильны (87,00–94,00%).

Оценка качества методологии всех исследований

Оценка качества методологии проанализированных исследований с использованием модифицированного опросника QUADAS-CAD представлена в Приложении 7.

Во всех проанализированных исследования (n=23, 100%) присутствует вероятность систематической ошибки из-за особенностей использования методик (рис. 1). Только в незначительной части исследований выборки были сбалансированы по уровню патологии (n=3, 13,0%) и демографическим характеристикам (n=2, 8,3%). Поскольку соответствующие вопросы являются сигнальными для домена D1 (Patient Selection), риск систематической ошибки в нём высок или вызывает опасения во всех проанализированных случаях. В некоторых исследованиях (n=9, 39,1%) из описания методики не было возможности определить, пересекались ли обучающая и тестовая выборка, что представляет собой ключевой вопрос в рамках домена D2 (Index Test). В ряде случаев некоторые вопросы домена D2 (например, «Если использовался порог патологии, был ли он установлен заранее?») и домена D3 (например, «Может ли референсный стандарт правильно классифицировать целевое состояние?» и «Были ли результаты референсных стандартов подготовлены или проверены с необходимым уровнем экспертизы?») были неприменимыми. Это связано с тем, что в некоторых исследованиях [11, 18, 19, 25] оценивали способность моделей подсчитывать разные типы клеток без диагностики заболеваний либо использовали симуляцию данных [7, 27–29].

 

Рис. 1. Оценки риска систематической ошибки с помощью модифицированного опросника QUADAS-CAD. QUADAS-CAD (Quality Assessment of Diagnostic Accuracy Studies Computer-Aided Detection) — специализированный модифицированный опросник для оценки риска систематических ошибок и применимости исследований в области технологий искусственного интеллекта.

 

В большинстве случаев референсный стандарт позволял корректно классифицировать целевые состояния (n=19, 82,6%). Тем не менее в 9 исследованиях (39,1%) уровень экспертной подготовки и критерии оценки референсных стандартов недостаточно определены. Минимальный риск систематической ошибки обнаружен для домена D4, оценивающего прозрачность полученных результатов.

ОБСУЖДЕНИЕ

Области применения технологий искусственного интеллекта

Выполненный систематический обзор продемонстрировал широкий спектр областей лабораторной медицины, в которых возможно применение технологий ИИ. Особое внимание следует уделить тому, что аналитический этап, с одной стороны, и преаналитический и постаналитический этапы — с другой, представляют две обширные сферы со своими специфическими задачами и методами их решения. На аналитическом этапе лабораторного анализа основным направлением применения технологий ИИ является распознавание объектов различной морфологии на лабораторных изображениях и их количественный анализ. Наблюдают большое разнообразие областей, где необходимо решать эту задачу:

  • анализ образцов крови с целью диагностики различных гематологических заболеваний — лейкозов и анемий;
  • анализ образцов осадка мочи для выявления инфекций мочевыводящих путей;
  • выявление разного рода микроорганизмов (от бактерий до простейших) в пробах тканей, мазках и посевах;
  • анализ образцов мокроты методами проточной цитометрии для выявления злокачественных новообразований лёгких;
  • анализ результатов биопсии костного мозга для выявления онкологических заболеваний крови.

В большинстве проанализированных исследований авторы использовали собственные решения, созданные в среде Phyton или в среде R. Наиболее эффективный результат (в плане диагностической точности, скорости и отсутствия проблем переобучения) показывают модели свёрточных нейронных сетей. Тем не менее в некоторых исследованиях авторы использовали готовые коммерческие решения для анализа образцов крови, посевов мочи и слизи из ротоглотки, а также образцов мокроты с помощью проточной цитометрии.

На преаналитическом и постаналитическом этапах основной задачей является обеспечение контроля качества данных [2, 30], что включает выявление ошибочной маркировки пробирок, а также поиск выпадающих или ошибочных значений результатов анализов как для каждого пациента персонально, так и для выборки в целом. В этом контексте наиболее востребованы инструменты из области больших данных [31].

Неравномерное распределение числа работ по разным этапам лабораторного анализа (значительное преобладание работ на аналитическом этапе) отражает структуру нашего поискового запроса при отборе литературы. В дальнейшем каждая из этих областей заслуживает отдельного исследования.

Диагностическая эффективность искусственного интеллекта и его внедрение в лабораторный процесс

Во всех проанализированных работах продемонстрирована высокая диагностическая точность моделей машинного обучения, достаточная для их внедрения в лабораторную практику. Эффективность ИИ сопоставима с результатами работы медицинских специалистов высшей квалификации и превышает показатели специалистов начального уровня. Так, для аналитического этапа обобщённые оценки диагностической эффективности ИИ составляют:

  • чувствительность — 0,923;
  • специфичность — 0,940;
  • точность — 0,929.

На преаналитическом этапе точность моделей машинного обучения в отношении выявления ошибочной маркировки пробирок составила 0,865–0,921. На постаналитическом этапе показатели, отражающие эффективность применения ИИ в контексте контроля качества данных (чувствительность, специфичность, точность), достигают 0,990. По скорости диагностики обученные модели машинного обучения значительно превосходят медицинских работников при анализе изображений и данных.

Внедрение технологий искусственного в лабораторный процесс и проблемы, препятствующие этому

Несмотря на высокую эффективность ИИ в экспериментах, случаи реального его внедрения в практику единичны и находятся на экспериментальном этапе. Мы обнаружили только одну публикацию, посвящённую опыту экспериментального внедрения технологий ИИ (в течение 1 мес.) в лабораторную практику. Следует отметить, что существует несколько групп проблем, препятствующих данному процессу [32, 33].

  • Причины, связанные со структурой экспериментальных работ, где получены оценки высокой эффективности ИИ. Важной и наиболее частой проблемой здесь является несбалансированность выборок при тестировании моделей машинного обучения [34]. Преимущественно наблюдают несбалансированность в отношении исследуемых патологий — выборка представлена пациентами с патологией. Это, очевидно, можно объяснить тем, что исследования проводят в медицинских организациях, специализирующихся на конкретных заболеваниях, и учёным доступны именно такие выборки. Тем не менее это повышает вероятность систематической ошибки в рамках исследования и снижения эффективности обученной модели в условиях реальной практики. Это же относится и к несбалансированности выборок по демографическим характеристикам, в частности по полу и возрасту. Часто в экспериментальную выборку включают всех доступных пациентов. Однако обнаружено, что для пациентов младшей и старшей возрастных групп, а также для беременных эффективность работы ИИ в некоторых случаях может иметь существенные отличия.
  • Отсутствие внешней валидации результатов тестирования моделей машинного обучения в большинстве работ, что приводит к невозможности генерализовать полученные в эксперименте результаты. Например, показано, что качество изображений (например, цвет и яркость) могут влиять на результат работы ИИ.

В некоторых исследованиях с целью увеличения объёма выборки используют метод создания из одного изображения нескольких, нарезая его на области. Далее их используют как независимые экземпляры в общей выборке в контексте применения технологий ИИ. Перед проведением подобной процедуры необходима предварительная проверка, которая позволит убедиться, что анализируемые участки одного изображения независимы друг от друга. Её отсутствие может вызвать псевдорепликацию, что сопровождается завышением эффективности используемой модели.

Кроме того, выявлены исследования, в которых присутствует конфликт интересов, когда производитель оборудования прямо или опосредованно финансирует работу, что повышает риск систематической ошибки при оценке эффективности ИИ. Тем не менее мы не обнаружили ни одной работы, где показана его низкая эффективность. Это косвенно указывает на наличие публикационной предвзятости, при которой отрицательные результаты недоступны для научного сообщества.

Общая сложность медицинских задач также в некоторых случаях труднопреодолима. Например, на одном и том же изображении системы ИИ могут распознавать некоторые типы клеток с очень высокой эффективностью, тогда как другие — с недопустимо низкой.

Структура работы и потребности лаборатории часто сложнее экспериментальных условий. Более того, условия работы разных лабораторий даже в одной области могут варьировать (например, использование своих референсных значений). Потребность в использовании технологий ИИ обусловлена экономией времени и ресурсов. Однако существуют факторы, которые способны нивелировать потенциальные преимущества их применения в реальных условиях:

  • необходимость большого количества аннотированных изображений;
  • вариабельность чувствительности и специфичности (например, высокая эффективность при обнаружении истинно положительных случаев при одновременном её снижении в выявлении истинно отрицательных);
  • необходимость обучения медицинских работников;
  • обязательная верификация результатов классификации человеком;
  • сложность при интерпретации выводов и вариабельность результатов (работа нейронной сети — «чёрный ящик» для пользователя).

Оценка временных и финансовых затрат, связанных с внедрением технологий ИИ в лабораторную практику, остаётся неопределённой.

Таким образом, модели машинного обучения имеют хороший потенциал в качестве вспомогательного инструмента для медицинских работников в области лабораторной медицины. Технологии ИИ способны автоматизировать рутинные лабораторные процессы, способствуют их стандартизации [35, 36], позволяют решать широкий спектр задач в патоморфологии. Возникает необходимость проведения экспериментальных исследований в области применения ИИ с учётом существующих методических проблем [37], а также оценки соотношения затрат и ожидаемой выгоды при его внедрении в лабораторную практику.

Ограничения систематического обзора

Разнообразие задач лабораторной медицины крайне велико и затрагивает многие медицинские и технологические области. Для поиска литературы мы использовали поисковую систему PubMed и программу для управления библиографической информацией Mendeley, что позволило отобрать исследования по наиболее часто встречающимся темам. Однако широкий спектр задач, ограничения структуры запроса и доступа к некоторым исследованиям не позволяет рассмотреть все существующие здесь вопросы, кроме того, некоторые темы не затронуты. Например, к таким областям относят вопросы роботизации забора образцов (в частности, забор венозной крови) [38], оптимизации назначений анализов и прогнозирования. Также по причине большого разнообразия задач во включённых исследованиях и, как следствие, невозможности группировки полученных моделей, разработанных при использовании различных методов машинного обучения, мы рассчитали только усреднённые оценки диагностической точности, не проводя метаанализ для отдельных моделей в соответствии с рекомендациями Кокрейновского руководства [39].

Помимо собственно медицинских, технических и экономических аспектов, внедрение технологий ИИ в практику сопровождается гуманитарными проблемами [40]. Например, разного рода страхи и психологические сложности медицинских работников и пациентов, основанные преимущественно на недостаточной осведомлённости о них. Кроме того, важной проблемой при использовании технологий ИИ является защита персональных данных пациентов. Все эти вопросы требуют отдельного исследования и решения.

Важно отметить, что практическое применение моделей машинного обучения и систем на основе ИИ возможно только после получения статуса медицинского изделия с технологиями ИИ. Его присваивают централизовано в Российской Федерации (Росздравнадзор, регистрационное удостоверение) и Соединённых Штатах Америки (Food and Drug Administration, FDA), либо децентрализовано — аккредитованными частными уполномоченными органами в странах Европейского союза (маркировка CE) [41]. Публикации, которые мы проанализировали, включая работу с экспериментальным этапом внедрения технологий ИИ в лабораторный процесс [12], не содержали информации о регистрации статуса медицинских изделий, что ещё раз подтверждает начальные этапы их внедрения в исследуемую область медицины.

ЗАКЛЮЧЕНИЕ

Потенциал применения технологий ИИ в лабораторной медицине охватывает все этапы лабораторного процесса и остаётся особенно актуальным.

Анализ выявленных исследований показал их распределение по всем этапам лабораторного анализа — преаналитическому, аналитическому и постаналитическому. При этом на аналитическом этапе выполнено большинство исследований (83,6%). Основное внимание в них уделяли диагностике гематологических и онкологических заболеваний. Также представлены исследования, направленные на выявление патогенных бактерий в тканевых пробах, моче и мазках. Кроме того, по одной работе посвящено вопросам паразитологии и гистопатологии. Работы, выполненные на преаналитическом и постаналитическом этапах, направлены на разработку эффективных методов контроля качества лабораторных отчётов с помощью технологий ИИ. Текущая стадия их внедрения в лабораторную медицину характеризуется ранним этапом развития, что подтверждается преобладанием собственных разработок. Лишь в 30,4% включённых работ использовали готовые коммерческие решения.

Модели машинного обучения и системы на основе ИИ демонстрируют высокие показатели эффективности, сравнимые с показателями высококвалифицированных медицинских работников или превосходящие их. Однако анализ качества методологии включённых работ, который мы провели, продемонстрировал высокую вероятность систематической ошибки во всех оцениваемых доменах, за исключением прозрачности полученных результатов. Высокий риск систематических ошибок обусловлен несбалансированностью выборок по представленным патологиям и демографическим характеристикам, возможной псевдорепликацией данных, отсутствием внешней валидации результатов, что в совокупности затрудняет их обобщение.

Завышение оценок эффективности ИИ во включённых исследованиях косвенно подтверждают малочисленные попытки внедрения разработанных моделей в рутинную практику. Мы выявили единственный эксперимент, продемонстрировавший положительные результаты в выявлении новых случаев дефицита железа.

Таким образом, технологии ИИ обладают значительным потенциалом в повышении эффективности и скорости выполнения рутинных лабораторных процессов, способствуя их автоматизации и стандартизации, а также высвобождению времени медицинского персонала для решения более сложных задач. Тем не менее для полноценного их внедрения в лабораторную практику необходимо комплексное решение ряда вопросов, связанных с оценкой его надёжности, воспроизводимости и практического применения.

ДОПОЛНИТЕЛЬНАЯ ИНФОРМАЦИЯ

Приложение 1. Список публикаций, включённых в систематический обзор, и их характеристики. doi: 10.17816/DD635349-4334766

Приложение 2. Список публикаций, исключённых из систематического обзора. doi: 10.17816/DD635349-4334769

Приложение 3. Основные характеристики исследований, представленных в публикациях, включённых в систематический обзор. doi: 10.17816/DD635349-4334770

Приложение 4. Характеристики выборок, используемые модели машинного обучения или готовые коммерческие решения, представленные в исследованиях. doi: 10.17816/DD635349-4334771

Приложение 5. Эффективность искусственного интеллекта в исследованиях. doi: 10.17816/DD635349-4334772

Приложение 6. Сравнительный анализ диагностической эффективности искусственного интеллекта и медицинских специалистов. doi: 10.17816/DD635349-4334773

Приложение 7. Оценка качества методологии исследований с использованием модифицированного опросника QUADAS-CAD. doi: 10.17816/DD635349-4334767

Вклад авторов. Ю.А. Васильев, А.В. Владзимирский, А.С. Гольдберг — разработка концепции исследования; О.Г. Нанова, И.А. Блохин, Р.В. Решетников — сбор и анализ литературных данных, написание и редактирование текста рукописи. Все авторы одобрили рукопись (версию для публикации), а также согласились нести ответственность за все аспекты работы, гарантируя надлежащее рассмотрение и решение вопросов, связанных с точностью и добросовестностью любой её части.

Этическая экспертиза. Неприменимо.

Источники финансирования. Данная статья подготовлена авторским коллективом в рамках научно-исследовательской работы «Научное обоснование методов лучевой диагностики опухолевых заболеваний с использованием радиомического анализа», (ЕГИСУ: № 123031500005-2) в соответствии с Приказом от 22.12.2023 № 1258 «Об утверждении государственных заданий, финансовое обеспечение которых осуществляется за счет средств бюджета города Москвы государственным бюджетным (автономным) учреждениям подведомственным Департаменту здравоохранения города Москвы, на 2024 год и плановый период 2025 и 2026 годов» Департамента здравоохранения города Москвы.

Раскрытие интересов. Авторы заявляют об отсутствии отношений, деятельности и интересов за последние три года, связанных с третьими лицами (коммерческими и некоммерческими), интересы которых могут быть затронуты содержанием статьи.

Оригинальность. При создании настоящей работы авторы не использовали ранее опубликованные сведения (текст, иллюстрации, данные).

Доступ к данным. Редакционная политика в отношении совместного использования данных к настоящей работе применима. Все данные, полученные в настоящем исследовании, доступны в статье и в приложении к ней. В частности, в Приложении 1–7.

Генеративный искусственный интеллект. При создании настоящей статьи технологии генеративного искусственного интеллекта не использовали.

Рассмотрение и рецензирование. Настоящая работа подана в журнал в инициативном порядке и рассмотрена по обычной процедуре. В рецензировании участвовали два члена редакционной коллегии и научный редактор издания.

ADDITIONAL INFORMATION

Supplement 1: List of publications included in the systematic review and their characteristics. doi: 10.17816/DD635349-4334766

Supplement 2: List of publications excluded from the systematic review. doi: 10.17816/DD635349-4334769

Supplement 3: Key characteristics of the studies presented in the included publications. doi: 10.17816/DD635349-4334770

Supplement 4: Sample characteristics, machine learning models, or commercial off-the-shelf solutions presented in the studies. doi: 10.17816/DD635349-4334771

Supplement 5: Effectiveness of artificial intelligence in the studies. doi: 10.17816/DD635349-4334772

Supplement 6: Comparative analysis of diagnostic effectiveness of artificial intelligence and healthcare professionals. doi: 10.17816/DD635349-4334773

Supplement 7: Quality assessment of study methodologies using the modified QUADAS-CAD checklist. doi: 10.17816/DD635349-4334768

Author contributions: Yu.A. Vasilev, A.V. Vladzymyrskyy, A.S. Goldberg: conceptualization; O.G. Nanova, I.A. Blokhin, R.V. Reshetnikov: published data search and analysis, writing—original draft, writing—review & editing. All the authors approved the version of the manuscript to be published and agreed to be accountable for all aspects of the work, ensuring that questions related to the accuracy or integrity of any part of the work are appropriately investigated and resolved.

Ethics approval: Not applicable.

Funding sources: This article was prepared as part of the research project Scientific Justification of Radiology Modalities for Tumor Diseases Using Radiomics Analysis (Unified State Information Accounting System No. 123031500005-2), in accordance with Order No. 1258 dated December 22, 2023, On Approval of State Assignments Funded by the Budget of the City of Moscow for State Budgetary (Autonomous) Institutions Under the Jurisdiction of the Moscow City Health Department for 2024 and the Planned Period of 2025–2026, issued by the Moscow City Health Department.

Disclosure of interests: The authors have no relationships, activities, or interests for the last three years related to for-profit or not-for-profit third parties whose interests may be affected by the content of the article.

Statement of originality: No previously published material (text, images, or data) was used in this work.

Data availability statement: The editorial policy regarding data sharing does not apply to this work. All data generated during this study are available in the article and its supplementary material (Supplements 1–7).

Generative AI: No generative artificial intelligence technologies were used to prepare this article.

Provenance and peer review: This paper was submitted unsolicited and reviewed following the standard procedure. The peer review process involved two members of the editorial board and the in-house science editor.

 

1 Visiopharm [Internet]. Denmark: Visiopharm®. 2001–2024. Режим доступа: https://visiopharm.com/ Дата обращения: 12.10.2024.

2 CyPath Lung [Internet]. San Antonio: CyPath® Lung. 2021–2024. Режим доступа: https://www.cypathlung.com/ Дата обращения: 12.10.2024.

3 EasyCell [Internet]. Anyang-si: EasyCell Co., Ltd. 2020–2024. Режим доступа: https://www.easycell.co/ Дата обращения: 12.10.2024.

4 Copan [Internet]. Murrieta: Copan Diagnostics Inc. 1999–2024. Режим доступа: https://www.copanusa.com/ Дата обращения: 12.10.2024.

5 Digital microscopy and AI: clinical and research applications [Internet]. Перхтольдсдорф: West Medica. 2021–2024. Режим доступа: https://wm-vision.com/en/product/hema Дата обращения: 12.10.2024.

×

作者简介

Yuriy A. Vasilev

Research and Practical Clinical Center for Diagnostics and Telemedicine Technologies

Email: npcmr@zdrav.mos.ru
ORCID iD: 0000-0002-5283-5961
SPIN 代码: 4458-5608

MD, Cand. Sci. (Medicine)

俄罗斯联邦, 24 Petrovka st, bldg 1, Moscow, 127051

Olga G. Nanova

Research and Practical Clinical Center for Diagnostics and Telemedicine Technologies

编辑信件的主要联系方式.
Email: nanova@mail.ru
ORCID iD: 0000-0001-8886-3684
SPIN 代码: 6135-4872

Cand. Sci. (Biology)

俄罗斯联邦, 24 Petrovka st, bldg 1, Moscow, 127051

Anton V. Vladzymyrskyy

Research and Practical Clinical Center for Diagnostics and Telemedicine Technologies

Email: VladzimirskijAV@zdrav.mos.ru
ORCID iD: 0000-0002-2990-7736
SPIN 代码: 3602-7120

MD, Dr. Sci. (Medicine)

俄罗斯联邦, 24 Petrovka st, bldg 1, Moscow, 127051

Arcadiy S. Goldberg

The Russian Medical Academy of Continuous Professional Education

Email: goldarcadiy@gmail.com
ORCID iD: 0000-0002-2787-4731
SPIN 代码: 8854-0469

MD, Cand. Sci. (Medicine)

俄罗斯联邦, Moscow

Ivan A. Blokhin

Research and Practical Clinical Center for Diagnostics and Telemedicine Technologies

Email: BlokhinIA@zdrav.mos.ru
ORCID iD: 0000-0002-2681-9378
SPIN 代码: 3306-1387

MD, Cand. Sci. (Medicine)

俄罗斯联邦, 24 Petrovka st, bldg 1, Moscow, 127051

Roman V. Reshetnikov

Research and Practical Clinical Center for Diagnostics and Telemedicine Technologies

Email: ReshetnikovRV1@zdrav.mos.ru
ORCID iD: 0000-0002-9661-0254
SPIN 代码: 8592-0558

Cand. Sci. (Physics and Mathematics)

俄罗斯联邦, 24 Petrovka st, bldg 1, Moscow, 127051

参考

  1. Bonert M, Zafar U, Maung R, et al. Pathologist workload, work distribution and significant absences or departures at a regional hospital laboratory. PLOS ONE. 2022;17(3):e0265905. doi: 10.1371/journal.pone.0265905 EDN: UFNVFE
  2. Hou H, Zhang R, Li J. Artificial intelligence in the clinical laboratory. Clinica Chimica Acta. 2024;559:119724. doi: 10.1016/j.cca.2024.119724 EDN: PBDERB
  3. Munari E, Scarpa A, Cima L, et al. Cutting-edge technology and automation in the pathology laboratory. Virchows Archiv. 2023;484(4):555–566. doi: 10.1007/s00428-023-03637-z EDN: OSGENI
  4. Vasilev YuA, Vladzymyrskyy AV, Omelyanskaya OV, et al. Guidelines for preparing a systematic review. Moscow: State Budget-Funded Health Care Institution of the City of Moscow “Research and Practical Clinical Center for Diagnostics and Telemedicine Technologies of Moscow Health Care Department”; 2023. 34 p. (In Russ.) EDN: XKXHDA
  5. Anjankar AP, Jha RK, Lambe S. Implementation of artificial intelligence in laboratory medicine. Journal of Datta Meghe Institute of Medical Sciences University. 2023;18(4):598–601. doi: 10.4103/jdmimsu.jdmimsu_486_22 EDN: VBNWUF
  6. Kodenko MR, Vasilev YuA, Vladzymyrskyy AV, et al. Diagnostic accuracy of ai for opportunistic screening of abdominal aortic aneurysm in ct: a systematic review and narrative synthesis. Diagnostics. 2022;12(12):3197. doi: 10.3390/diagnostics12123197 EDN: ERWYPX
  7. Farrell CJ. Identifying mislabelled samples: machine learning models exceed human performance. Annals of Clinical Biochemistry: International Journal of Laboratory Medicine. 2021;58(6):650–652. doi: 10.1177/00045632211032991 EDN: MQQLCW
  8. Lea D, Gudlaugsson EG, Skaland I, et al. Digital image analysis of the proliferation markers Ki67 and phosphohistone H3 in gastroenteropancreatic neuroendocrine neoplasms: accuracy of grading compared with routine manual hot spot evaluation of the Ki67 index. Applied Immunohistochemistry & Molecular Morphology. 2021;29(7):499–505. doi: 10.1097/pai.0000000000000934 EDN: XIKRGL
  9. Lemieux ME, Reveles XT, Rebeles J, et al. Detection of early-stage lung cancer in sputum using automated flow cytometry and machine learning. Respiratory Research. 2023;24(1):23. doi: 10.1186/s12931-023-02327-3 EDN: HSQBUA
  10. Kimura K, Tabe Y, Ai T, et al. A novel automated image analysis system using deep convolutional neural networks can assist to differentiate MDS and AA. Scientific Reports. 2019;9(1):1–9. doi: 10.1038/s41598-019-49942-z EDN: PXXHII
  11. Yoon S, Hur M, Park M, et al. Performance of digital morphology analyzer Vision Pro on white blood cell differentials. Clinical Chemistry and Laboratory Medicine (CCLM). 2021;59(6):1099–1106. doi: 10.1515/cclm-2020-1701 EDN: GVMONA
  12. Kurstjens S, de Bel T, van der Horst A, et al. Automated prediction of low ferritin concentrations using a machine learning algorithm. Clinical Chemistry and Laboratory Medicine (CCLM). 2022;60(12):1921–1928. doi: 10.1515/cclm-2021-1194 EDN: HDJWKG
  13. Wang M, Dong C, Gao Y, et al. A deep learning model for the automatic recognition of aplastic anemia, myelodysplastic syndromes, and acute myeloid leukemia based on bone marrow smear. Frontiers in Oncology. 2022;12: 844978. doi: 10.3389/fonc.2022.844978 EDN: BQFWSO
  14. Kim H, Lee GH, Yoon S, et al. Performance of digital morphology analyzer Medica EasyCell assistant. Clinical Chemistry and Laboratory Medicine (CCLM). 2023;61(10):1858–1866. doi: 10.1515/cclm-2023-0100 EDN: ZDXONI
  15. Elagina EA, Margun AA. Research of machine learning methods in the problem of identification of blood cells. Scientific and Technical Journal of Information Technologies, Mechanics and Optics. 2021;21(6):903–911. doi: 10.17586/2226-1494-2021-21-6-903-911 EDN: ZVQLEV
  16. Ayyıldız H, Arslan Tuncer S. Is it possible to determine antibiotic resistance of E. coli by analyzing laboratory data with machine learning? Turkish Journal of Biochemistry. 2021;46(6):623–630. doi: 10.1515/tjb-2021-0040 EDN: JTZHYJ
  17. Van TT, Mata K, Bard JD. Automated detection of Streptococcus pyogenes pharyngitis by use of Colorex Strep A CHROMagar and WASPLab artificial intelligence chromogenic detection module software. Journal of Clinical Microbiology. 2019;57(11):e00811-19. doi: 10.1128/JCM.00811-19
  18. Faron ML, Buchan BW, Relich RF, et al. Evaluation of the WASPLab segregation software to automatically analyze urine cultures using routine blood and MacConkey agars. Journal of Clinical Microbiology. 2020;58(4):e01683-19. doi: 10.1128/jcm.01683-19 EDN: UDENAP
  19. Yang M, Nurzynska K, Walts AE, Gertych A. A CNN-based active learning framework to identify mycobacteria in digitized Ziehl–Neelsen stained human tissues. Computerized Medical Imaging and Graphics. 2020;84:101752. doi: 10.1016/j.compmedimag.2020.101752 EDN: AYLPVY
  20. Zurac S, Mogodici C, Poncu T, et al. A new artificial intelligence-based method for identifying mycobacterium tuberculosis in Ziehl–Neelsen stain on tissue. Diagnostics. 2022;12(6):1484. doi: 10.3390/diagnostics12061484 EDN: IJUCYT
  21. Wang Z, Zhang L, Zhao M, et al. Deep neural networks offer morphologic classification and diagnosis of bacterial vaginosis. Journal of Clinical Microbiology. 2021;59(2):e02236-20. doi: 10.1128/JCM.02236-20 EDN: GBZITD
  22. Lev-Sagie A, Strauss D, Ben Chetrit A. Diagnostic performance of an automated microscopy and pH test for diagnosis of vaginitis. NPJ Digital Medicine. 2023;6(1):66. doi: 10.1038/s41746-023-00815-w EDN: SVUVPJ
  23. Burton RJ, Albur M, Eberl M, Cuff SM. Using artificial intelligence to reduce diagnostic workload without compromising detection of urinary tract infections. BMC Medical Informatics and Decision Making. 2019;19:171. doi: 10.1186/s12911-019-0878-9
  24. Avci D, Sert E, Dogantekin E, et al. A new super resolution Faster R-CNN model based detection and classification of urine sediments. Biocybernetics and Biomedical Engineering. 2023;43(1):58–68. doi: 10.1016/j.bbe.2022.12.001 EDN: HQRRRR
  25. Mathison BA, Kohan JL, Walker JF, et al. Detection of intestinal protozoa in trichrome-stained stool specimens by use of a deep convolutional neural network. Journal of Clinical Microbiology. 2020;58(6):e02053-19. doi: 10.1128/jcm.02053-19 EDN: GWHHRT
  26. Wallace MB, Sharma P, Bhandari P, et al. Impact of artificial intelligence on miss rate of colorectal neoplasia. Gastroenterology. 2022;163(1):295–304.e5. doi: 10.1053/j.gastro.2022.03.007 EDN: CVAOAF
  27. Liang Y, Wang Z, Huang D, et al. A study on quality control using delta data with machine learning technique. Heliyon. 2022;8(8):e09935. doi: 10.1016/j.heliyon.2022.e09935 EDN: XNSZKR
  28. Zhou R, Liang Y, Cheng H, et al. A multi-model fusion algorithm as a real-time quality control tool for small shift detection. Computers in Biology and Medicine. 2022;148:105866. doi: 10.1016/j.compbiomed.2022.105866 EDN: OBKKZC
  29. Wang H, Wang H, Zhang J, et al. Using machine learning to develop an autoverification system in a clinical biochemistry laboratory. Clinical Chemistry and Laboratory Medicine (CCLM). 2020;59(5):883–891. doi: 10.1515/cclm-2020-0716 EDN: SVNLZY
  30. Lippi G, Mattiuzzi C, Favaloro E. Artificial intelligence in the pre-analytical phase: state-of-the art and future perspectives. Journal of Medical Biochemistry. 2024;43(1):1–10. doi: 10.5937/jomb0-45936 EDN: PVAVYI
  31. Blatter TU, Witte H, Nakas CT, Leichtle AB. Big data in laboratory medicine-FAIR quality for AI? Diagnostics. 2022;12(8):1923. doi: 10.3390/diagnostics12081923 EDN: MCJCST
  32. Ghassemi M, Oakden-Rayner L, Beam AL. The false hope of current approaches to explainable artificial intelligence in health care. The Lancet Digital Health. 2021;3(11):e745–e750. doi: 10.1016/s2589-7500(21)00208-9 EDN: EHUNYG
  33. Paranjape K, Schinkel M, Hammer RD, et al. The value of artificial intelligence in laboratory medicine. American Journal of Clinical Pathology. 2020;155(6):823–831. doi: 10.1093/ajcp/aqaa170 EDN: KUADLL
  34. Ghosh K, Bellinger C, Corizzo R, et al. The class imbalance problem in deep learning. Machine Learning. 2022;113(7):4845–4901. doi: 10.1007/s10994-022-06268-8 EDN: AQXQUP
  35. Certuficate of state registration of a computer program No. 2023665713/ 19.07.2023. Byul. No. 7. Vasilev YuA, Vladzymyrskyy AV, Omelyanskaya OV, et al. Web platform for technological and clinical monitoring of the results of digital medical image analysis algorithms. Available from: https://elibrary.ru/download/elibrary_54200632_17081735.PDF (In Russ.) EDN: JIEPJK
  36. Zinchenko VV, Arzamasov KM, Kremneva EI, et al. Technological defects in software based on artificial intelligence. Digital Diagnostics. 2023;4(4):593–604. doi: 10.17816/DD501759 EDN: ORUFMM
  37. Sharova DE, Garbuk SV, Vasilyev YuA. Artificial intelligence systems in clinical medicine: the world’s first series of national standards. Standards and Quality. 2023;(1):46–51. doi: 10.35400/0038-9692-2023-1-304-22 EDN: SNMGQA
  38. Laddi A, Goyal S, Savlania A. Vein segmentation and visualization of upper and lower extremities using convolution neural network. Biomedical Engineering. Biomedizinische Technik. 2024;69(5):455–464. doi: 10.1515/bmt-2023-0331 EDN: PRAAZI
  39. Macaskill P, Takwoingi Y, Deeks JJ, Gatsonis C. Chapter 9: Understanding meta-analysis. In: Deeks JJ, Bossuyt PM, Leeflang MM, Takwoingi Y, editors. Cochrane handbook for systematic reviews of diagnostic test accuracy. version 2.0 (updated July 2023). Cochrane; 2023 [cited 2024 Aug 17]. Available from: https://training.cochrane.org/handbook-diagnostic-test-accuracy/current
  40. Pennestrì F, Banfi G. Artificial intelligence in laboratory medicine: fundamental ethical issues and normative key-points. Clinical Chemistry and Laboratory Medicine (CCLM). 2022;60(12):1867–1874. doi: 10.1515/cclm-2022-0096 EDN: ZOALXU
  41. Muehlematter UJ, Daniore P, Vokinger KN. Approval of artificial intelligence and machine learning-based medical devices in the USA and Europe (2015–20): a comparative analysis. The Lancet Digital Health. 2021;3(3):e195–e203. doi: 10.1016/s2589-7500(20)30292-2 EDN: UWEZGN

补充文件

附件文件
动作
1. JATS XML
2. Supplement 1. List of publications included in the systematic review and their characteristics
下载 (16KB)
3. Supplement 2. List of publications excluded from the systematic review
下载 (18KB)
4. Supplement 3. Main characteristics of the studies presented in the publications included in the systematic review 10.17816/DD635349-4334770
下载 (18KB)
5. Supplement 4. Characteristics of samples and machine learning models used, or commercially available solutions presented in the studies
下载 (23KB)
6. Supplement 5. Effectiveness of artificial intelligence in studies
下载 (20KB)
7. Supplement 6. Comparative analysis of the diagnostic efficiency of artificial intelligence and medical workers
下载 (15KB)
8. Supplement 7. Assessment of the quality of research methodology using the modified QUADAS-CAD questionnaire
下载 (33KB)
9. Fig. 1. Assessment of the risk of systematic error using the modified QUADAS-CAD questionnaire. QUADAS-CAD (Quality Assessment of Diagnostic Accuracy Studies Computer-Aided Detection) is a specialized modified questionnaire for assessing the risk of systematic errors and the applicability of research in the field of artificial intelligence technologies.

下载 (514KB)

版权所有 © Eco-Vector, 2025

Creative Commons License
此作品已接受知识共享署名-非商业性使用-禁止演绎 4.0国际许可协议的许可。

СМИ зарегистрировано Федеральной службой по надзору в сфере связи, информационных технологий и массовых коммуникаций (Роскомнадзор).
Регистрационный номер и дата принятия решения о регистрации СМИ: серия ПИ № ФС 77 - 79539 от 09 ноября 2020 г.