Use of artificial intelligence technologies in laboratory medicine, their effectiveness and application scenarios: a systematic review
- Authors: Vasilev Y.A.1, Nanova O.G.1, Vladzymyrskyy A.V.1, Goldberg A.S.2, Blokhin I.A.1, Reshetnikov R.V.1
-
Affiliations:
- Research and Practical Clinical Center for Diagnostics and Telemedicine Technologies
- The Russian Medical Academy of Continuous Professional Education
- Issue: Vol 6, No 2 (2025)
- Pages: 251-267
- Section: Systematic reviews
- Submitted: 23.08.2024
- Accepted: 21.11.2024
- Published: 08.07.2025
- URL: https://jdigitaldiagnostics.com/DD/article/view/635349
- DOI: https://doi.org/10.17816/DD635349
- EDN: https://elibrary.ru/BXDWFO
- ID: 635349
Cite item
Full Text
Abstract
BACKGROUND: With the increasing volume of data, laboratory medicine requires automation and standardization of routine processes to reduce workload on healthcare professionals and clear their time for more specialized tasks. Machine learning models and artificial neural networks support image recognition and analysis of large data sets, which allows their integration into laboratory workflows to solve routine tasks.
AIM: This study aimed to analyze global scientific publications on the application of artificial intelligence technologies in laboratory medicine and their potential to address current challenges and identify barriers in their integration into laboratory workflows.
METHODS: A search for publications was conducted using PubMed, manufacturer websites offering ready-to-use laboratory solutions, and reference lists from other reviews. The Mendeley software was utilized for bibliographic data management. The search covered the time interval 2019–2024. Obtained data included bibliometric indicators, research areas, key methodological characteristics, diagnostic effectiveness values for artificial intelligence systems and healthcare professionals, the number and experience of involved healthcare professionals, and validated outcomes of artificial intelligence implementation. The study quality was assessed using a modified QUADAS-CAD checklist.
RESULTS: Twenty-three publications presenting studies at the pre-analytical (n = 1), analytical (n = 19), and post-analytical (n = 3) stages of laboratory analysis were included. Most studies focused on cytology and microbiology, accounting for 48% and 35% of the studies, respectively. Artificial intelligence demonstrated high effectiveness in solving tasks across all stages of the laboratory process. Moreover, its diagnostic accuracy was comparable to that of healthcare professionals; however, decision-making speed was higher. All studies demonstrated a risk of systematic bias, which was associated with unbalanced samples, lacking external data validation, and incomplete description of datasets and analytical methods.
CONCLUSION: Artificial intelligence demonstrates high potential in diagnostic accuracy and processing speed, making it a promising tool to be integrated into laboratory practice and automation of routine processes. However, to achieve this, research methodologies for artificial intelligence should be standardized to reduce the risk of systematic bias, establish reference values for laboratories to ensure the reproducibility and generalizability of results, raise awareness among healthcare professionals and patients on how artificial intelligence works to overcome prejudices, and develop reliable mechanisms for protecting personal data when using artificial intelligence.
Full Text
ОБОСНОВАНИЕ
Лабораторная медицина — крайне нагруженная непрерывным потоком анализов и данных область. Классические стандартные протоколы лабораторной диагностики требуют от медицинских специалистов больших затрат времени и постоянной концентрации внимания [1, 2]. Именно в этой области остро стоит вопрос автоматизации процессов с целью снятия с медицинских работников нагрузки, связанной с рутинными процедурами, и переключения их внимания и усилий на более сложные специализированные задачи [3].
Технологии искусственного интеллекта (ИИ), включающие в широком понимании как относительно простые методы машинного обучения, так и искусственные нейронные сети, быстро развиваются в последнее десятилетие и имеют потенциал стать удачным решением в отношении автоматизации рутинных процессов лабораторной медицины.
ЦЕЛЬ
Проанализировать мировую литературу в области применения технологий искусственного интеллекта в лабораторной медицине, оценить их возможности в отношении решения существующих задач, а также выявить возможные проблемы, затрудняющие внедрение искусственного интеллекта в лабораторные процессы.
МЕТОДЫ
Стратегия поиска
Поиск публикаций выполняли с помощью поисковой системе PubMed [4], на сайтах производителей программ на основе технологий ИИ для лабораторной медицины, а также использовали метод «снежного кома» — поиск исследовательских работ в списках литературы публикаций.
Поисковая система PubMed. Временной интервал: с 2019 года по 01.06.2024. Поисковый запрос выглядел следующим образом: ((((((((((((artificial intelligence) OR (deep learning)) OR (machine learning) OR (computer vision)) AND (clinical laboratory)) OR (laboratory medicine)) OR (clinical deployment)) AND (pathomorphology)) OR (digital pathology))) AND (computer-aided diagnosis)) OR (diagnostics)) AND (pathological image analysis)) NOT (radiomics).
В разделе фильтров выбраны следующие опции:
- для «Text Availability» с целью отбора статей с доступным полным текстом: Abstract, Full Text;
- для «Article Attribute» с целью отбора статей, которые содержат ссылки на ассоциированные клинические исследования либо наборы данных, подтверждающие достоверность полученных результатов: Associated Data;
- для «Article Type» с целью отбора наиболее убедительных доказательств: Clinical Trial, Randomized Controlled Trial.
Программа для управления библиографической информацией Mendeley. Временной интервал: 2019–2024 гг. Поиск выполняли с использованием ключевого слова: «artificial intelligence laboratory medicine».
Для поиска исследовательских работ с доказанным применением технологий ИИ в лабораторной практике изучены сайты производителей, упомянутые в отобранных публикациях, в частности разделы с научной литературой по использованию выпускаемого оборудования:
Временной интервал: 2023–2024 гг. Искали публикации, подтверждающие внедрение технологий ИИ в работу лаборатории.
Литературные обзоры, демонстрирующие опыт применения технологий ИИ в лабораторной медицине в период с 2023 по 2024 год: 2 публикации, отобранные из 12 найденных [2, 5].
Критерии включения
- публикации, имеющие как минимум английское резюме;
- статьи, опубликованные в рецензируемых научных журналах;
- препринты;
- статьи, опубликованные в конференционных сборниках.
Критерии исключения
- публикации, не связанные с лабораторной медициной и компьютерным зрением;
- публикации, не охватывающие вопросы медицины человека;
- обзоры литературы;
- конференционные тезисы.
Поисковая стратегия включала два этапа:
- первый — сначала анализировали названия и резюме всех найденных по поисковым запросам работ, затем отбирали соответствующие нашим задачам исследования;
- второй — анализировали полные тексты и их доступность из отобранного списка работ и составляли выборку для основного анализа обзора.
Публикации отбирал один эксперт, а финальный список включённых работ оценивали два эксперта. В качестве экспертов выступали научные сотрудники с опытом работы в медицинской информатике более 10 лет.
Наш обзор включает публикации, демонстрирующие применение технологий ИИ на всех трёх основных этапах лабораторного анализа:
- преаналитический;
- аналитический;
- постаналитический.
Поскольку их задачи и методы различны, каждый из этих этапов в систематическом обзоре мы рассмотрим отдельно.
Извлечение информации и оценка качества статьи
Из полных текстов отобранных статей извлекали следующую информацию:
- библиометрические данные — имя первого автора, название статьи, год выхода, DOI (Digital Object Identifier — цифровой идентификатор объекта), название журнала, импакт-фактор журнала, страну выполнения исследования;
- направление исследований и их основные характеристики (объём выборки, дизайн исследования, наличие валидации на внешних данных, использованные лабораторные методы и модели ИИ);
- показатели диагностической эффективности ИИ [чувствительность, специфичность, площадь под кривой (AUC), точность, а также некоторые другие критерии эффективности, традиционные для лабораторной медицины];
- сравнения диагностической эффективности ИИ и медицинских специалистов;
- количество медицинских специалистов и уровень их квалификации;
- оценка времени работы моделей машинного обучения и систем на основе ИИ (в том числе в сравнении с медицинскими специалистами);
- оценка экономической эффективности потенциального внедрения технологий ИИ;
- подтверждённые результаты внедрения ИИ.
Мы рассчитали средние показатели диагностической эффективности с использованием всех работ, где они обнаружены: медиану и 95% доверительный интервал (ДИ). Провели оценку качества отобранных публикаций с помощью модифицированного опросника QUADAS-CAD (Quality Assessment of Diagnostic Accuracy Studies Computer-Aided Detection) [6], разработанного для исследований с использованием ИИ.
Извлечение информации и оценка качества работ проведены одним экспертом. Результаты оценивали два эксперта с опытом работы в медицинской информатике более 10 лет.
РЕЗУЛЬТАТЫ
Поиск литературы и отбор работ
На первом этапе найдено 2036 публикаций:
- поисковая система PubMed — 551;
- программа для управления библиографической информацией Mendeley — 1335;
- сайты — 17;
- литературные обзоры — 133.
На втором этапе отобрано 58 публикаций и исключено 1978. В основной анализ включили 23 публикации (Приложение 1). Из систематического обзора исключили 35 публикаций (Приложение 2). Среди основных причин исключения выделили следующие:
- отсутствие доступа к полному тексту;
- отсутствие факта применения технологий ИИ;
- техническая разработка метода без анализа медицинских данных.
Из включённых работ одна посвящена преаналитическому этапу лабораторного анализа, 19 — аналитическому, 3 — постаналитическому.
Основные характеристики исследований, представленных в публикациях, включённых в систематический обзор, продемонстрированы в Приложении 3.
Характеристики выборок и используемые модели машинного обучения или готовые коммерческие решения на основе ИИ, описанные в исследованиях, продемонстрированы в Приложении 4.
Преаналитический этап
В исследовании, посвящённом преаналитическому этапу лабораторного анализа, рассматривают возможности применения технологий ИИ для выявления случаев неправильной маркировки пробирок [7]. Их эффективность в контроле качества сравнивают с результатами, достигаемыми медицинским персоналом лаборатории. Для такой проверки стандартно используют Δ-проверку (Delta-Check Methods) — сравнение последовательных во времени лабораторных результатов от одного и того же пациента и выявление ошибок при сильных их расхождениях. Рассматриваемое исследование выполнено ретроспективно, без внешней валидации, а также без тестирования в реальных лабораторных условиях. Ошибку маркировки симулировали на 50% уровне. Авторы разработали, обучили и протестировали в среде R 8 моделей машинного обучения (Приложение 5). Для сравнения использовали 50 медицинских работников с разным опытом (Приложение 6). Следует отметить, что не обнаружено достоверной связи (p >0,1) между точностью контроля качества медицинских работников и их стажем. Все 8 моделей (0,865–0,921) превзошли медицинский персонал (0,778) по уровню точности решения задачи выявления неправильной маркировки (см. Приложение 6). Модель нейронной сети была наиболее эффективной (0,921), модель простого дерева решений — наименее (0,865).
Аналитический этап
Основной объём найденных по нашим запросам публикаций (19) демонстрирует исследования, выполненные на аналитическом этапе лабораторного анализа. Они выполнены в области цитологии, микробиологии, гистопатологии, паразитологии либо на пересечении этих областей.
В сфере цитологии задачи распределены следующим образом:
- диагностика опухолевых заболеваний — 2 исследования (анализ крови; анализ мокроты) [8, 9];
- диагностика гематологической патологии — 6 исследований (анализ крови — 5; мазок костного мозга — 1) [10–15].
В области микробиологии задачи работ распределены следующим образом:
- оценка устойчивости кишечной палочки (Escherichia coli) к 19 видам антибиотиков — одно исследование (общий анализ крови и мочи) [16];
- детекция стрептококков группы A (Streptococcus) — одно исследование (посев слизи из ротоглотки на агаре и кровяном агаре) [17];
- сегрегация патоген-положительных и -отрицательных посевов мочи с помощью подсчёта колоний без определения морфологии клеток — одно исследование (посев мочи на кровяном агаре и агаре МакКонки) [18];
- идентификация микобактерий в тканях человека с использованием окрашивания по Цилю–Нильсену — два исследования [19, 20];
- диагностика вагинитов с использованием вагинальных мазков — два исследования [21, 22].
В двух публикациях продемонстрировано совместное применение методов цитологии и микробиологии — анализировали осадок мочи для выявления потенциальных патогенов и диагностики инфекций мочевыводящих путей, при этом использовали детекцию и подсчёт элементов осадка мочи [23, 24].
B.A. Mathison и соавт. [25] выполняли детекцию кишечных простейших (Protozoa) в окрашенных трихромом мазках кала человека. В качестве объектов распознавания выступали:
- кишечная лямблия (Giardia duodenalis), её цисты и трофозоиты;
- кишечные амёбы (Entamoeba hartmanni, Entamoeba non-hartmanni, или крупная Entamoeba spp.) и их трофозоиты;
- Dientamoeba fragilis;
- бластоцисты (Blastocystis );
- хиломастикс (Chilomastix mesnili) и его трофозоиты;
- карликовые амёбы (Endolimax nana) и их трофозоиты;
- Iodamoeba buetschlii и её трофозоиты;
- эритроциты;
- лейкоциты.
Кроме того, модели обучили также для идентификации дрожжей как антикласса с целью предотвращения их ошибочной классификации. Для микроорганизмов Entamoeba spp., C. mesnili, E. nana и I. buetschlii модель обучили распознавать только активную стадию трофозоитов. Тем не менее она не идентифицировала их цисты в связи с недостаточным числом обучающих образцов и слабой выраженностью их морфологии в используемом методе окрашивания.
Из 19 включённых в обзор исследований, проведённых на аналитическом этапе лабораторного анализа, были:
- многоцентровыми (использовали данные из нескольких лабораторий) — 8 (42%) [9, 12, 13, 15, 18, 21];
- одноцентровыми (использовали данные только из одной лаборатории) — 11 (55%) [7, 8, 10, 11, 14, 16, 17, 19, 22, 23, 25];
- ретроспективными — 17 (90%) [8–11, 13–21, 23–26];
- проспективными — 1 (5%) [22];
- ретроспективными с включённым проспективным тестом — 1 (5%) [12].
Внешнюю валидацию модели использовали в двух (10%) исследованиях [12, 13].
Для описания объёма использованной выборки в исследованиях используют разные показатели (см. Приложение 3):
- число пациентов;
- число образцов (мазков, анализов);
- число изображений и их областей.
Объём выборки может сильно варьировать между разными исследованиями:
- число пациентов — 103–8021;
- число образцов — 167–212 554;
- число изображений — 510–695 030;
- количество областей изображения — от 260 тыс. до 7 млн.
Если в исследовании отмечено наличие нескольких показателей объёма выборки, то число образцов всегда значительно превышает количество пациентов, а число проанализированных изображений — количество образцов.
Информация о возрасте пациентов найдена в 8 публикациях из 19, при этом возрастные интервалы широко варьируют как внутри исследований, так и между работами. Информация о половом составе выборок найдена в 10 работах из 19. Относительно равное соотношение полов в выборках выявлено в двух исследованиях [8, 12]. Однако следует отметить, что анемию чаще диагностируют у женщин [12]. Исследования, посвящённые диагностике инфекций мочевыводящих путей, характеризуются преобладанием женщин [16, 23], поскольку эта патология чаще представлена у них. В ряде работ наблюдают неравномерное распределения пола в выборке по неясным причинам [9, 15, 20, 26]. Расовый и этнический состав пациентов приведён в одном исследовании [9]:
- «белые» пациенты с отсутствием злокачественных новообразований — 110 (90,2%);
- «белые» пациенты с подтверждённым злокачественным новообразованием — 25 (89,3%);
- «небелые» пациенты с отсутствием злокачественных новообразований — 12 (9,8%);
- «небелые» пациенты с подтверждённым злокачественным новообразованием — 3 (10,7%);
- латиноамериканцы с отсутствием злокачественных новообразований — 15 (12,3%);
- латиноамериканцы с подтверждённым злокачественным новообразованием — 8 (28,6%);
- не латиноамериканцы с отсутствием злокачественных новообразований — 104 (85,2%);
- не латиноамериканцы с подтверждённым злокачественным новообразованием — 18 (64,3%);
- пациенты с отсутствием злокачественных новообразований и без данных о расовой и этнической принадлежности — 3 (2,5%);
- пациенты с подтверждённым злокачественным новообразованием и без данных о расовой и этнической принадлежности — 2 (7,1%).
В 12 исследованиях авторы использовали собственные модели, разработанные с помощью различных алгоритмов машинного обучения. В 7 исследованиях применяли модели в виде готовых коммерческих решений, в которых:
- сообщали об отсутствии конфликта интересов — 2 [11, 14];
- отсутствовала информация об отсутствии конфликта интересов — 2 [8, 26];
- присутствует конфликт интересов, когда производитель оборудования финансирует исследование (например, предоставляет оборудование и материалы для проведения исследования либо авторы работы одновременно являются или являлись в прошлом сотрудниками фирмы-продавца оборудования) — 3 [9, 17, 18].
Сравнительный анализ моделей, полученных с помощью различных алгоритмов, проводили в 6 исследованиях [9, 12, 15, 16, 23, 24], их диагностической эффективности в сравнении с медицинскими специалистами — 9 [8, 11, 12, 17, 18, 20–22, 25].
Диагностическая эффективность искусственного интеллекта на аналитическом этапе
Данные о диагностической эффективности ИИ представлены в Приложении 5.
Средние обобщённые показатели эффективности моделей машинного обучения достаточно высоки:
- чувствительность — 0,923 (95% ДИ 0,921–0,924), n=34;
- специфичность — 0,940 (95% ДИ 0,939–0,942), n=34;
- значение AUC — 0,915 (95% ДИ 0,914–0,916), n=14;
- точность — 0,929 (95% ДИ 0,928–0,930), n=37.
Показатели, характеризующие эффективность, могут сильно варьировать в разных областях лабораторной медицины в соответствии с решаемыми задачами.
Так, модели машинного обучения на основе результатов анализа крови для диагностики анемии [12], а также опухолевых заболеваний и анемии [10] обладают следующими показателями эффективности (минимальное и максимальное значение):
- чувствительность — 0,930–0,980;
- специфичность — 0,920–1,000;
- значение AUC — 0,900–0,990.
Модели машинного обучения, включающие данные результатов мазков мокроты, для диагностики опухолевых заболеваний [9] также имеют высокие показатели (минимальное и максимальное значение):
- чувствительность — 0,820–0,920;
- специфичность — 0,770–0,880;
- значение AUC — 0,850–0,940).
Модели машинного обучения для диагностики опухолевых заболеваний, полученные с использованием результатов мазков костного мозга [13], обладают следующими показателями эффективности (минимальное и максимальное значение):
- чувствительность — 0,857–0,992;
- специфичность — 0,917–0,933;
- значение AUC — 0,970–0,990;
- точность — 0,914–0,929.
Качество идентификации и подсчёта клеток крови сильно варьирует в зависимости от типа анализируемых клеток. S. Yoon и соавт. [11] приводят метрики диагностической точности для классификации клеток с помощью цифрового морфологического анализатора, на финальном этапе полученные результаты врач-гематолог проверил и доработал. Однако подробный алгоритм их проверки экспертом в статье не представлен, также мы не обнаружили его в описании цифрового морфологического анализатора Vision Pro® (West Medica, Австрия) на сайте производителя5. Чувствительность анализатора была высокой в отношении нормальных лейкоцитов и ядросодержащих эритроидных клеток крови (0,801–0,980), и относительно низкой — для бластов, миелоцитов и метамиелоцитов (0,765, 0,480 и 0,505, соответственно). В то же время отмечена высокая специфичность для всех типов клеток (0,981–1,000).
Е.А. Елагина и соавт. [15] провели сравнительный анализ различных моделей машинного обучения для распознавания клеток крови. Следует отметить, что классификационные модели свёрточной нейронной сети и опорных векторов обладали наибольшей эффективностью в отношении диагностической точности. При этом модель опорных векторов страдала от переобучения и требовала значительных вычислительных затрат. Классификационная модель на основе метода k-ближайших соседей обладала меньшей диагностической точностью в сравнении с моделями свёрточной нейронной сети и опорных векторов.
H. Ayyıldız и соавт. [16] оценивали устойчивость E. coli к антибиотикам с помощью методов машинного обучения. Точность моделей варьировала в зависимости от используемого метода машинного обучения для их создания и типа антибиотика: 0,680–0,980. Кроме того, с помощью технологий ИИ с высокой диагностической точностью возможно определять микобактерии в тканях человека [19, 20] (чувствительность — 0,957–0,987; специфичность — 0,987–1,000; значение AUC — 0,980; точность — 0,983–0,988). Показатели эффективности моделей машинного обучения для диагностики бактериальных вагинитов могут варьировать в зависимости от их задач: чувствительность — 0,841–0,957; специфичность — 0,659–0,994 [21, 22].
С помощью модели машинного обучения возможно эффективно идентифицировать стрептококки в посевах на агаре, её чувствительность и специфичность составляет 0,906 и 0,940 соответственно. Модель для детекции колоний бактерий в посевах мочи демонстрирует высокий показатель чувствительности (0,998) и средний специфичности (0,720) [17].
R.J. Burton и соавт. [23] продемонстрировали эффективность использования технологий ИИ с целью снижения нагрузки на лабораторию посредством уменьшения числа посевов. Различные модели машинного обучения использовали для анализа осадка мочи (подсчёт собственных клеток и бактерий) с целью выявления необходимости дальнейшего посева. Авторы выявили, что модель экстремального градиентного бустинга обладала наибольшей эффективностью. Так, её применение по сравнению со стандартной автоматизированной микроскопией с помощью эвристической модели приведёт к тому, что результат исследования одного из четырёх пациентов будет переведён из ложноположительного в истинно отрицательный, и одного из 11 — из ложноотрицательного в истинно положительный. Авторы утверждают, что результаты исследования беременных и пациентов детского возраста необходимо анализировать в качестве отдельных выборок. D. Avci и соавт. [24] разработали модель для детекции разных элементов осадка мочи, созданную на основе свёрточной нейронной сетей, которая продемонстрировала высокую точность — 0,962–0,986.
M.B. Wallace и соавт. [26] изучали возможное снижение количества ложноотрицательных результатов обнаружения кишечных неоплазий при использовании технологий ИИ. Для этого пациенты проходили две последовательные колоноскопии в один день. Пациентам 1-й группы сначала проводили колоноскопию с использованием технологий ИИ, а затем — без них. Во 2-й группе, напротив, первоначально выполняли колоноскопию без применения технологий ИИ, после чего проводили повторное исследование с их использованием. Авторы рассчитывали показатель пропуска аденомы (AMR): количество гистологически подтверждённых поражений, обнаруженных при второй колоноскопии, делённое на общее количество поражений, обнаруженных при первой и второй колоноскопии, выполненной в течение одного дня. Рассчитывали также среднее количество поражений, обнаруженных при второй колоноскопии, и долю ложноотрицательных случаев (отсутствие поражений при первой колоноскопии и как минимум одно при второй). Показатель AMR в 1-й и 2-й группах составил 0,155 (38 из 246) и 0,324 (80 из 247) соответственно. Следует отметить, что он был ниже в 1-й группе при поражениях 5 мм и менее (0,159 против 0,358) и их неполипоидном типе (0,168 против 0,458). Кроме того, показатель AMR был ниже как в проксимальном (0,183 против 0,325), так и дистальном отделе толстого кишечника (0,108 против 0,321). Среднее количество аденом при второй колоноскопии — меньше в 1-й группе по сравнению со 2-й (0,330±0,630 против 0,700±0,970, p <0,001). Частота ложноотрицательных результатов в 1-й и 2-й группах составила 0,068 (3 из 44 пациентов) и 0,296 (13 из 44) соответственно.
Сравнение диагностической точности искусственного интеллекта и медицинских работников на аналитическом этапе лабораторного анализа
Сравнительный анализ диагностической точности ИИ и медицинских работников на аналитическом этапе лабораторного анализа представлен в Приложении 6.
В исследованиях с проведённым анализом диагностической эффективности ИИ и медицинских работников показано, что она либо превосходит людей [12, 17, 20], либо сопоставима с ними [8, 11, 17, 18, 21, 22]. Согласно результатам двух исследований, при работе с одним пациентом ИИ затрачивает меньше времени, чем человек, что свидетельствует о его более высокой скорости обработки данных [12, 20]. В некоторых случаях, например при подсчёте разных клеток крови, результат сильно варьирует в зависимости от типа клеток: для одних — согласованность между моделями машинного обучения и медицинским работником высока, а для других — низкая [11]. Рассмотрим более подробно отдельные случаи.
Модель машинного обучения, позволяющая предсказывать низкую концентрацию ферритина в крови на основании общего клинического анализа крови и содержания С-реактивного белка, обладала более высокой диагностической эффективностью (чувствительность — 0,930–0,980; специфичность — 0,920) по сравнению с врачами клинической лабораторной диагностики (чувствительность — 0,830–0,880; специфичность — 0,910–0,920). Кроме того, применение ИИ позволяет значительно сократить время на принятие решения: менее 1 с на пациента против 19–20 с у врача и 13–16 с при использовании ИИ в качестве вспомогательного инструмента. Авторы полагают, что низкое содержание ферритина у пациентов с анемией возможно точно предсказать с помощью модели машинного обучения на основании результатов рутинных лабораторных исследований [12].
В случае диагностики и стадирования злокачественных новообразований с помощью индекса пролиферативной активности опухолевой клетки (Ki-67) оценивают согласованность результатов, полученных при анализе ИИ гистологических исследований, и стандартного протокола. Для количественного показателя Ki-67 использовали коэффициент внутриклассовой корреляции, который составил 0,960 (95% ДИ 0,940–0,980), а для оценки стадии заболевания применяли критерий квадратичного взвешенного κ — 0,860 (95% ДИ 0,810–0,910). Полученные результаты демонстрируют высокую степень согласованности между методами. Авторы полагают, что использование ИИ при определении значения Ki-67 обеспечивает сопоставимую диагностическую точность с ручной оценкой, при этом выступая в роли эффективного вспомогательного инструмента, способного сэкономить время при диагностике патологий [8].
T.T. Van и соавт. [17] оценивали способность программного обеспечения PhenoMATRIX® (Copan Diagnostics Inc., Соединённые Штаты Америки) с хромогенным модулем обнаружения на основе ИИ автоматически идентифицировать колонии стрептококка группы А, выращенные на хромогенном агаре Colorex Strep A agar® (CHROMagar, Франция). Данные, полученные с помощью программного обеспечения, сравнивали с результатами ручного считывания медицинскими лаборантами, обладающими опытом интерпретации хромогенных сред. Программное обеспечение на основе ИИ продемонстрировало более высокую чувствительность в сравнении с лаборантами при сопоставимой специфичности. Авторы считают, что его использование для обнаружения колоний стрептококков группы А на хромогенной питательной среде может оптимизировать рабочий процесс за счёт повышения скорости диагностики. Отметим, что в Российской Федерации интерпретацию результатов лабораторных исследований может проводить только врач, что снижает ценность полученных результатов.
S. Yoon и соавт. [11] в своём исследовании при подсчёте лейкоцитов вычисляли разницу между их количеством, определённым тремя разными методами:
- с помощью ручного подсчёта, который проводили два врача-гематолога с использованием светового микроскопа на 200x увеличении;
- с помощью цифрового морфологического анализатора Vision Pro® (West Medica, Австрия);
- с помощью данного цифрового морфологического анализатора с конечной реклассификацией результата экспертом (в соответствии с нераскрытой методикой разработчика программного обеспечения).
Для разных типов клеток наблюдают высокую степень вариабельности согласованности между тремя способами подсчёта.
M.L. Faron и соавт. [18] применяли программное обеспечение на основе ИИ WASPLab® (Copan, Италия) для автоматического анализа культур мочи с использованием кровяного агара и агара МакКони. Результаты ручного подсчёта выступали в качестве референс-теста. Подсчёт колоний в посевах мочи с помощью программного обеспечения характеризовался следующими показателями эффективности: чувствительности и специфичности — 0,998 и 0,720 соответственно. Авторы полагают, что его использование для анализа изображений является высокочувствительным, поэтому возможно внедрение в лаборатории для пакетного анализа отрицательных культур с целью улучшения рабочего процесса. Несоответствие между мануальным и автоматическим подсчётом связано с наличием микроколоний. Важной задачей для автоматизации подсчёта культур остаётся стандартизация пороговых значений выявления колоний. Лаборатории, представившие свои результаты для исследования, использовали разные критерии для определения положительных и отрицательных результатов, что затрудняет использование технологий ИИ и снижает финальную эффективность инструмента.
S. Zurac и соавт. [20] предложили автоматический метод идентификации Mycobacterium tuberculosis в образцах, окрашенных по методу Циля–Нильсена, и в тканях человека с использованием глубоких нейронных сетей. Данный метод продемонстрировал более высокие диагностические результаты (чувствительность — 0,957; специфичность — 1,000; точность — 0,983) в сравнении с патологоанатомами (чувствительность — 0,391–0,957; специфичность — 0,756–0,946; точность — 0,833). Среднее время, затрачиваемое патологоанатомами на исследование образца, варьировало от 5,48 до 17,06 мин: на анализ положительных слайдов уходило меньше времени, тогда как на отрицательные (истинно или ложноотрицательные) — больше. Для каждого специалиста наибольшая продолжительность обследования зафиксирована в отношении отрицательных случаев (истинно отрицательный для семи врачей и ложноотрицательный для одного), а наименьшая — истинно положительных. Время, затраченное патологоанатомами на исследование образца с помощью ИИ, варьировало от 9 с до 2 мин для положительных слайдов (в среднем 0,61 мин). Таким образом, автоматический метод идентификации на основе технологий ИИ, использованный в работе, экономит как минимум треть времени специалиста. Кроме того, он позволяет снижать вероятность человеческих ошибок, вызванных усталостью и потерей внимания.
В двух исследованиях сравнивали эффективность технологий ИИ и медицинских работников в диагностике вагинитов. В данных работах диагностическая точность ИИ сопоставима с результатами, показанными медицинскими работниками [21, 22]. В частности, в исследовании Z. Wang и соавт. [21] чувствительность модели свёрточной нейронной сети составила 0,914, а у медицинских специалистов (трёх лаборантов и двух врачей-акушеров-гинекологов) — 0,943. Она продемонстрировала более высокую специфичность (0,913 против 0,731) и точность (0,893 против 0,837). Авторы отмечают, что изменение качества изображений (например, цвета, яркости) влияет на точность работы модели свёрточной нейронной сети. Результаты данных исследований свидетельствуют о перспективности использования автоматизированной микроскопии для повышения качества первичной диагностики инфекционных и неинфекционных вагинитов.
B.A. Mathison и соавт. [25] выявили высокую степень согласованности между моделью свёрточной нейронной сети и медицинскими лаборантами при обнаружении и классификации кишечных простейших в образцах кала, окрашенных трихромом. Уровень положительной и отрицательной согласованности составил 0,989 (95% ДИ 0,938–1,000) и 0,981 (95% ДИ 0,934–0,998) соответственно. Модель показала высокую воспроизводимость при анализе слайдов, содержащих несколько классов, один класс или не содержащих паразитов. Авторы считают, что цифровое сканирование слайдов в сочетании с протестированной моделью свёрточной нейронной сети — надёжный инструмент, дополняющий традиционные методы обнаружения кишечных простейших.
Подтверждённые результаты внедрения технологий искусственного интеллекта на аналитическом этапе лабораторного анализа
S. Kurstjens и соавт. [12] внедрили разработанную модель машинного обучения в работу лаборатории в тестовом режиме на 1 мес. Python скрипт реализован во внутренней лабораторной системе. В октябре 2021 г. проспективно проанализированы все результаты анализов взрослых пациентов первичного звена с анемией. Концентрацию ферритина измеряли у всех взрослых. В течение 21 дня при анализе данных 391 уникального пациента модель машинного обучения позволила выявить 18 новых случаев дефицита железа, не выявленных ранее. Авторы полагают, что технологии ИИ позволяют точнее и быстрее диагностировать низкое содержание железа в крови, что позволяет им быть полезным вспомогательным инструментом для врачей. Однако отмечены некоторые ограничения. Например, данная модель валидирована, поэтому её можно использовать в группе пациентов с определёнными характеристиками — взрослые пациенты с диагностированной анемией. Кроме того, следует учитывать, что в разных лабораториях используют различные референсные значения содержания ферритина в крови.
Ни в одном из включённых исследований не анализировали экономическую эффективность внедрения технологий ИИ в лабораторную практику.
Постаналитический этап
Исследования, реализованные на постаналитическом этапе лабораторного анализа, выполнены в области контроля качества — направлены на поиск ошибок и аномальных значений в результатах анализов. Следует отметить, что работы с использованием технологий ИИ на постаналитическом этапе проводили преимущественно в следующих направлениях:
- анализ больших данных (Big Data);
- симуляции данных (например, искусственного внесения в данные ошибки);
- Δ-анализ — сравнительное исследование последовательных во времени анализов одного и того же пациента.
Во всех трёх исследованиях показано превосходство ИИ по сравнению с классическими статистическими методами PBRTQC (Patient-Based Real-Time Quality Control) контроля качества в контексте показателей эффективности.
Y. Liang и соавт. [27] изучали новый протокол стабильности данных путём объединения Δ-данных с методами машинного обучения для улучшения возможностей обнаружения событий контроля качества. Авторы сравнивали данные Δ-типа и данные одного типа, обработанные с использованием пределов усечения в PBRTQC на основе статистического метода. Сравнения проводили для семи параметров крови (см. Приложение 3). В качестве клинического показателя использовали также количество затронутых пациентов от начала внесения систематической ошибки до её обнаружения, оптимальное значение которого должно быть минимальным. Результаты исследования показали, что диагностические параметры модели «случайного леса» значительно превосходят (см. Приложение 5) стандартные статистические методы PBRTQC.
R. Zhou и соавт. [28] провели сравнительный анализ различных алгоритмов постаналитического контроля качества биохимических тестов, направленных на определение содержания общего простатоспецифичного антигена. В исследовании рассмотрены четыре традиционные модели контроля качества (PBRTQC) — Moving Average; Moving Median; Moving Standard Deviation; Moving Sum of Number of Patient Results. Кроме того, авторы сравнивали эффективность трёх моделей машинного обучения — «случайного леса», опорных векторов и нейронной сети. Также протестирован алгоритм слияния информационной энтропии, объединяющий все три модели машинного обучения. При симуляции в данные вносили ошибки восьми разных уровней (0,01–0,20 мкг/л), а также использовали шесть вариантов блоков различного размера. Все модели машинного обучения и их комбинация превосходили методы стандартных алгоритмов PBRTQC по параметрам диагностической точности. Модель слияния превосходила по эффективности каждую из трёх моделей машинного обучения по отдельности. Модель «случайного леса» предрасположена к переобучению. Модель опорных векторов демонстрировала затруднения при множественной классификации, в то время как модель нейронной сети столкнулась с трудностями при принятии решений. Модель слияния по точности превосходила следующие модели:
- опорных векторов — на 8,7%;
- «случайного леса» — на 9,6%;
- нейронной сети — на 6,9%;
- стандартные PBRTQC — на 20%.
Кроме того, эффективность методов PBRTQC варьировала в зависимости от уровня внесённой ошибки, тогда как модели машинного обучения демонстрировали стабильную работу независимо от её величины.
H. Wang и соавт. [29] в своём исследовании тестировали возможности нескольких моделей машинного обучения в отношении верификации данных биохимических тестов, включающих 52 биохимических параметра. Финальная обобщённая модель показала уровень прохождения и ложноотрицательных результатов 89,60 и 0,095% соответственно. Полученная модель позволила сократить количество недействительных отчётов примерно на 80% по сравнению с теми, которые оценивали с помощью стандартного алгоритма, повысив эффективность работы и снизив нагрузку на персонал биохимической лаборатории. Примечательно, что два обнаруженных ложноотрицательных отчёта, принадлежали пациентам с экстремальными для выборки значениями возраста: 4 мес. и 92 года. Кроме того, результаты (уровень прохождения) стандартного лабораторного алгоритма (50,20–65,10%) флуктуировали в течение рабочего процесса, тогда как для модели машинного обучения они были относительно стабильны (87,00–94,00%).
Оценка качества методологии всех исследований
Оценка качества методологии проанализированных исследований с использованием модифицированного опросника QUADAS-CAD представлена в Приложении 7.
Во всех проанализированных исследования (n=23, 100%) присутствует вероятность систематической ошибки из-за особенностей использования методик (рис. 1). Только в незначительной части исследований выборки были сбалансированы по уровню патологии (n=3, 13,0%) и демографическим характеристикам (n=2, 8,3%). Поскольку соответствующие вопросы являются сигнальными для домена D1 (Patient Selection), риск систематической ошибки в нём высок или вызывает опасения во всех проанализированных случаях. В некоторых исследованиях (n=9, 39,1%) из описания методики не было возможности определить, пересекались ли обучающая и тестовая выборка, что представляет собой ключевой вопрос в рамках домена D2 (Index Test). В ряде случаев некоторые вопросы домена D2 (например, «Если использовался порог патологии, был ли он установлен заранее?») и домена D3 (например, «Может ли референсный стандарт правильно классифицировать целевое состояние?» и «Были ли результаты референсных стандартов подготовлены или проверены с необходимым уровнем экспертизы?») были неприменимыми. Это связано с тем, что в некоторых исследованиях [11, 18, 19, 25] оценивали способность моделей подсчитывать разные типы клеток без диагностики заболеваний либо использовали симуляцию данных [7, 27–29].
Рис. 1. Оценки риска систематической ошибки с помощью модифицированного опросника QUADAS-CAD. QUADAS-CAD (Quality Assessment of Diagnostic Accuracy Studies Computer-Aided Detection) — специализированный модифицированный опросник для оценки риска систематических ошибок и применимости исследований в области технологий искусственного интеллекта.
В большинстве случаев референсный стандарт позволял корректно классифицировать целевые состояния (n=19, 82,6%). Тем не менее в 9 исследованиях (39,1%) уровень экспертной подготовки и критерии оценки референсных стандартов недостаточно определены. Минимальный риск систематической ошибки обнаружен для домена D4, оценивающего прозрачность полученных результатов.
ОБСУЖДЕНИЕ
Области применения технологий искусственного интеллекта
Выполненный систематический обзор продемонстрировал широкий спектр областей лабораторной медицины, в которых возможно применение технологий ИИ. Особое внимание следует уделить тому, что аналитический этап, с одной стороны, и преаналитический и постаналитический этапы — с другой, представляют две обширные сферы со своими специфическими задачами и методами их решения. На аналитическом этапе лабораторного анализа основным направлением применения технологий ИИ является распознавание объектов различной морфологии на лабораторных изображениях и их количественный анализ. Наблюдают большое разнообразие областей, где необходимо решать эту задачу:
- анализ образцов крови с целью диагностики различных гематологических заболеваний — лейкозов и анемий;
- анализ образцов осадка мочи для выявления инфекций мочевыводящих путей;
- выявление разного рода микроорганизмов (от бактерий до простейших) в пробах тканей, мазках и посевах;
- анализ образцов мокроты методами проточной цитометрии для выявления злокачественных новообразований лёгких;
- анализ результатов биопсии костного мозга для выявления онкологических заболеваний крови.
В большинстве проанализированных исследований авторы использовали собственные решения, созданные в среде Phyton или в среде R. Наиболее эффективный результат (в плане диагностической точности, скорости и отсутствия проблем переобучения) показывают модели свёрточных нейронных сетей. Тем не менее в некоторых исследованиях авторы использовали готовые коммерческие решения для анализа образцов крови, посевов мочи и слизи из ротоглотки, а также образцов мокроты с помощью проточной цитометрии.
На преаналитическом и постаналитическом этапах основной задачей является обеспечение контроля качества данных [2, 30], что включает выявление ошибочной маркировки пробирок, а также поиск выпадающих или ошибочных значений результатов анализов как для каждого пациента персонально, так и для выборки в целом. В этом контексте наиболее востребованы инструменты из области больших данных [31].
Неравномерное распределение числа работ по разным этапам лабораторного анализа (значительное преобладание работ на аналитическом этапе) отражает структуру нашего поискового запроса при отборе литературы. В дальнейшем каждая из этих областей заслуживает отдельного исследования.
Диагностическая эффективность искусственного интеллекта и его внедрение в лабораторный процесс
Во всех проанализированных работах продемонстрирована высокая диагностическая точность моделей машинного обучения, достаточная для их внедрения в лабораторную практику. Эффективность ИИ сопоставима с результатами работы медицинских специалистов высшей квалификации и превышает показатели специалистов начального уровня. Так, для аналитического этапа обобщённые оценки диагностической эффективности ИИ составляют:
- чувствительность — 0,923;
- специфичность — 0,940;
- точность — 0,929.
На преаналитическом этапе точность моделей машинного обучения в отношении выявления ошибочной маркировки пробирок составила 0,865–0,921. На постаналитическом этапе показатели, отражающие эффективность применения ИИ в контексте контроля качества данных (чувствительность, специфичность, точность), достигают 0,990. По скорости диагностики обученные модели машинного обучения значительно превосходят медицинских работников при анализе изображений и данных.
Внедрение технологий искусственного в лабораторный процесс и проблемы, препятствующие этому
Несмотря на высокую эффективность ИИ в экспериментах, случаи реального его внедрения в практику единичны и находятся на экспериментальном этапе. Мы обнаружили только одну публикацию, посвящённую опыту экспериментального внедрения технологий ИИ (в течение 1 мес.) в лабораторную практику. Следует отметить, что существует несколько групп проблем, препятствующих данному процессу [32, 33].
- Причины, связанные со структурой экспериментальных работ, где получены оценки высокой эффективности ИИ. Важной и наиболее частой проблемой здесь является несбалансированность выборок при тестировании моделей машинного обучения [34]. Преимущественно наблюдают несбалансированность в отношении исследуемых патологий — выборка представлена пациентами с патологией. Это, очевидно, можно объяснить тем, что исследования проводят в медицинских организациях, специализирующихся на конкретных заболеваниях, и учёным доступны именно такие выборки. Тем не менее это повышает вероятность систематической ошибки в рамках исследования и снижения эффективности обученной модели в условиях реальной практики. Это же относится и к несбалансированности выборок по демографическим характеристикам, в частности по полу и возрасту. Часто в экспериментальную выборку включают всех доступных пациентов. Однако обнаружено, что для пациентов младшей и старшей возрастных групп, а также для беременных эффективность работы ИИ в некоторых случаях может иметь существенные отличия.
- Отсутствие внешней валидации результатов тестирования моделей машинного обучения в большинстве работ, что приводит к невозможности генерализовать полученные в эксперименте результаты. Например, показано, что качество изображений (например, цвет и яркость) могут влиять на результат работы ИИ.
В некоторых исследованиях с целью увеличения объёма выборки используют метод создания из одного изображения нескольких, нарезая его на области. Далее их используют как независимые экземпляры в общей выборке в контексте применения технологий ИИ. Перед проведением подобной процедуры необходима предварительная проверка, которая позволит убедиться, что анализируемые участки одного изображения независимы друг от друга. Её отсутствие может вызвать псевдорепликацию, что сопровождается завышением эффективности используемой модели.
Кроме того, выявлены исследования, в которых присутствует конфликт интересов, когда производитель оборудования прямо или опосредованно финансирует работу, что повышает риск систематической ошибки при оценке эффективности ИИ. Тем не менее мы не обнаружили ни одной работы, где показана его низкая эффективность. Это косвенно указывает на наличие публикационной предвзятости, при которой отрицательные результаты недоступны для научного сообщества.
Общая сложность медицинских задач также в некоторых случаях труднопреодолима. Например, на одном и том же изображении системы ИИ могут распознавать некоторые типы клеток с очень высокой эффективностью, тогда как другие — с недопустимо низкой.
Структура работы и потребности лаборатории часто сложнее экспериментальных условий. Более того, условия работы разных лабораторий даже в одной области могут варьировать (например, использование своих референсных значений). Потребность в использовании технологий ИИ обусловлена экономией времени и ресурсов. Однако существуют факторы, которые способны нивелировать потенциальные преимущества их применения в реальных условиях:
- необходимость большого количества аннотированных изображений;
- вариабельность чувствительности и специфичности (например, высокая эффективность при обнаружении истинно положительных случаев при одновременном её снижении в выявлении истинно отрицательных);
- необходимость обучения медицинских работников;
- обязательная верификация результатов классификации человеком;
- сложность при интерпретации выводов и вариабельность результатов (работа нейронной сети — «чёрный ящик» для пользователя).
Оценка временных и финансовых затрат, связанных с внедрением технологий ИИ в лабораторную практику, остаётся неопределённой.
Таким образом, модели машинного обучения имеют хороший потенциал в качестве вспомогательного инструмента для медицинских работников в области лабораторной медицины. Технологии ИИ способны автоматизировать рутинные лабораторные процессы, способствуют их стандартизации [35, 36], позволяют решать широкий спектр задач в патоморфологии. Возникает необходимость проведения экспериментальных исследований в области применения ИИ с учётом существующих методических проблем [37], а также оценки соотношения затрат и ожидаемой выгоды при его внедрении в лабораторную практику.
Ограничения систематического обзора
Разнообразие задач лабораторной медицины крайне велико и затрагивает многие медицинские и технологические области. Для поиска литературы мы использовали поисковую систему PubMed и программу для управления библиографической информацией Mendeley, что позволило отобрать исследования по наиболее часто встречающимся темам. Однако широкий спектр задач, ограничения структуры запроса и доступа к некоторым исследованиям не позволяет рассмотреть все существующие здесь вопросы, кроме того, некоторые темы не затронуты. Например, к таким областям относят вопросы роботизации забора образцов (в частности, забор венозной крови) [38], оптимизации назначений анализов и прогнозирования. Также по причине большого разнообразия задач во включённых исследованиях и, как следствие, невозможности группировки полученных моделей, разработанных при использовании различных методов машинного обучения, мы рассчитали только усреднённые оценки диагностической точности, не проводя метаанализ для отдельных моделей в соответствии с рекомендациями Кокрейновского руководства [39].
Помимо собственно медицинских, технических и экономических аспектов, внедрение технологий ИИ в практику сопровождается гуманитарными проблемами [40]. Например, разного рода страхи и психологические сложности медицинских работников и пациентов, основанные преимущественно на недостаточной осведомлённости о них. Кроме того, важной проблемой при использовании технологий ИИ является защита персональных данных пациентов. Все эти вопросы требуют отдельного исследования и решения.
Важно отметить, что практическое применение моделей машинного обучения и систем на основе ИИ возможно только после получения статуса медицинского изделия с технологиями ИИ. Его присваивают централизовано в Российской Федерации (Росздравнадзор, регистрационное удостоверение) и Соединённых Штатах Америки (Food and Drug Administration, FDA), либо децентрализовано — аккредитованными частными уполномоченными органами в странах Европейского союза (маркировка CE) [41]. Публикации, которые мы проанализировали, включая работу с экспериментальным этапом внедрения технологий ИИ в лабораторный процесс [12], не содержали информации о регистрации статуса медицинских изделий, что ещё раз подтверждает начальные этапы их внедрения в исследуемую область медицины.
ЗАКЛЮЧЕНИЕ
Потенциал применения технологий ИИ в лабораторной медицине охватывает все этапы лабораторного процесса и остаётся особенно актуальным.
Анализ выявленных исследований показал их распределение по всем этапам лабораторного анализа — преаналитическому, аналитическому и постаналитическому. При этом на аналитическом этапе выполнено большинство исследований (83,6%). Основное внимание в них уделяли диагностике гематологических и онкологических заболеваний. Также представлены исследования, направленные на выявление патогенных бактерий в тканевых пробах, моче и мазках. Кроме того, по одной работе посвящено вопросам паразитологии и гистопатологии. Работы, выполненные на преаналитическом и постаналитическом этапах, направлены на разработку эффективных методов контроля качества лабораторных отчётов с помощью технологий ИИ. Текущая стадия их внедрения в лабораторную медицину характеризуется ранним этапом развития, что подтверждается преобладанием собственных разработок. Лишь в 30,4% включённых работ использовали готовые коммерческие решения.
Модели машинного обучения и системы на основе ИИ демонстрируют высокие показатели эффективности, сравнимые с показателями высококвалифицированных медицинских работников или превосходящие их. Однако анализ качества методологии включённых работ, который мы провели, продемонстрировал высокую вероятность систематической ошибки во всех оцениваемых доменах, за исключением прозрачности полученных результатов. Высокий риск систематических ошибок обусловлен несбалансированностью выборок по представленным патологиям и демографическим характеристикам, возможной псевдорепликацией данных, отсутствием внешней валидации результатов, что в совокупности затрудняет их обобщение.
Завышение оценок эффективности ИИ во включённых исследованиях косвенно подтверждают малочисленные попытки внедрения разработанных моделей в рутинную практику. Мы выявили единственный эксперимент, продемонстрировавший положительные результаты в выявлении новых случаев дефицита железа.
Таким образом, технологии ИИ обладают значительным потенциалом в повышении эффективности и скорости выполнения рутинных лабораторных процессов, способствуя их автоматизации и стандартизации, а также высвобождению времени медицинского персонала для решения более сложных задач. Тем не менее для полноценного их внедрения в лабораторную практику необходимо комплексное решение ряда вопросов, связанных с оценкой его надёжности, воспроизводимости и практического применения.
ДОПОЛНИТЕЛЬНАЯ ИНФОРМАЦИЯ
Приложение 1. Список публикаций, включённых в систематический обзор, и их характеристики. doi: 10.17816/DD635349-4334766
Приложение 2. Список публикаций, исключённых из систематического обзора. doi: 10.17816/DD635349-4334769
Приложение 3. Основные характеристики исследований, представленных в публикациях, включённых в систематический обзор. doi: 10.17816/DD635349-4334770
Приложение 4. Характеристики выборок, используемые модели машинного обучения или готовые коммерческие решения, представленные в исследованиях. doi: 10.17816/DD635349-4334771
Приложение 5. Эффективность искусственного интеллекта в исследованиях. doi: 10.17816/DD635349-4334772
Приложение 6. Сравнительный анализ диагностической эффективности искусственного интеллекта и медицинских специалистов. doi: 10.17816/DD635349-4334773
Приложение 7. Оценка качества методологии исследований с использованием модифицированного опросника QUADAS-CAD. doi: 10.17816/DD635349-4334767
Вклад авторов. Ю.А. Васильев, А.В. Владзимирский, А.С. Гольдберг — разработка концепции исследования; О.Г. Нанова, И.А. Блохин, Р.В. Решетников — сбор и анализ литературных данных, написание и редактирование текста рукописи. Все авторы одобрили рукопись (версию для публикации), а также согласились нести ответственность за все аспекты работы, гарантируя надлежащее рассмотрение и решение вопросов, связанных с точностью и добросовестностью любой её части.
Этическая экспертиза. Неприменимо.
Источники финансирования. Данная статья подготовлена авторским коллективом в рамках научно-исследовательской работы «Научное обоснование методов лучевой диагностики опухолевых заболеваний с использованием радиомического анализа», (ЕГИСУ: № 123031500005-2) в соответствии с Приказом от 22.12.2023 № 1258 «Об утверждении государственных заданий, финансовое обеспечение которых осуществляется за счет средств бюджета города Москвы государственным бюджетным (автономным) учреждениям подведомственным Департаменту здравоохранения города Москвы, на 2024 год и плановый период 2025 и 2026 годов» Департамента здравоохранения города Москвы.
Раскрытие интересов. Авторы заявляют об отсутствии отношений, деятельности и интересов за последние три года, связанных с третьими лицами (коммерческими и некоммерческими), интересы которых могут быть затронуты содержанием статьи.
Оригинальность. При создании настоящей работы авторы не использовали ранее опубликованные сведения (текст, иллюстрации, данные).
Доступ к данным. Редакционная политика в отношении совместного использования данных к настоящей работе применима. Все данные, полученные в настоящем исследовании, доступны в статье и в приложении к ней. В частности, в Приложении 1–7.
Генеративный искусственный интеллект. При создании настоящей статьи технологии генеративного искусственного интеллекта не использовали.
Рассмотрение и рецензирование. Настоящая работа подана в журнал в инициативном порядке и рассмотрена по обычной процедуре. В рецензировании участвовали два члена редакционной коллегии и научный редактор издания.
ADDITIONAL INFORMATION
Supplement 1: List of publications included in the systematic review and their characteristics. doi: 10.17816/DD635349-4334766
Supplement 2: List of publications excluded from the systematic review. doi: 10.17816/DD635349-4334769
Supplement 3: Key characteristics of the studies presented in the included publications. doi: 10.17816/DD635349-4334770
Supplement 4: Sample characteristics, machine learning models, or commercial off-the-shelf solutions presented in the studies. doi: 10.17816/DD635349-4334771
Supplement 5: Effectiveness of artificial intelligence in the studies. doi: 10.17816/DD635349-4334772
Supplement 6: Comparative analysis of diagnostic effectiveness of artificial intelligence and healthcare professionals. doi: 10.17816/DD635349-4334773
Supplement 7: Quality assessment of study methodologies using the modified QUADAS-CAD checklist. doi: 10.17816/DD635349-4334768
Author contributions: Yu.A. Vasilev, A.V. Vladzymyrskyy, A.S. Goldberg: conceptualization; O.G. Nanova, I.A. Blokhin, R.V. Reshetnikov: published data search and analysis, writing—original draft, writing—review & editing. All the authors approved the version of the manuscript to be published and agreed to be accountable for all aspects of the work, ensuring that questions related to the accuracy or integrity of any part of the work are appropriately investigated and resolved.
Ethics approval: Not applicable.
Funding sources: This article was prepared as part of the research project Scientific Justification of Radiology Modalities for Tumor Diseases Using Radiomics Analysis (Unified State Information Accounting System No. 123031500005-2), in accordance with Order No. 1258 dated December 22, 2023, On Approval of State Assignments Funded by the Budget of the City of Moscow for State Budgetary (Autonomous) Institutions Under the Jurisdiction of the Moscow City Health Department for 2024 and the Planned Period of 2025–2026, issued by the Moscow City Health Department.
Disclosure of interests: The authors have no relationships, activities, or interests for the last three years related to for-profit or not-for-profit third parties whose interests may be affected by the content of the article.
Statement of originality: No previously published material (text, images, or data) was used in this work.
Data availability statement: The editorial policy regarding data sharing does not apply to this work. All data generated during this study are available in the article and its supplementary material (Supplements 1–7).
Generative AI: No generative artificial intelligence technologies were used to prepare this article.
Provenance and peer review: This paper was submitted unsolicited and reviewed following the standard procedure. The peer review process involved two members of the editorial board and the in-house science editor.
1 Visiopharm [Internet]. Denmark: Visiopharm®. 2001–2024. Режим доступа: https://visiopharm.com/ Дата обращения: 12.10.2024.
2 CyPath Lung [Internet]. San Antonio: CyPath® Lung. 2021–2024. Режим доступа: https://www.cypathlung.com/ Дата обращения: 12.10.2024.
3 EasyCell [Internet]. Anyang-si: EasyCell Co., Ltd. 2020–2024. Режим доступа: https://www.easycell.co/ Дата обращения: 12.10.2024.
4 Copan [Internet]. Murrieta: Copan Diagnostics Inc. 1999–2024. Режим доступа: https://www.copanusa.com/ Дата обращения: 12.10.2024.
5 Digital microscopy and AI: clinical and research applications [Internet]. Перхтольдсдорф: West Medica. 2021–2024. Режим доступа: https://wm-vision.com/en/product/hema Дата обращения: 12.10.2024.
About the authors
Yuriy A. Vasilev
Research and Practical Clinical Center for Diagnostics and Telemedicine Technologies
Email: npcmr@zdrav.mos.ru
ORCID iD: 0000-0002-5283-5961
SPIN-code: 4458-5608
MD, Cand. Sci. (Medicine)
Russian Federation, 24 Petrovka st, bldg 1, Moscow, 127051Olga G. Nanova
Research and Practical Clinical Center for Diagnostics and Telemedicine Technologies
Author for correspondence.
Email: nanova@mail.ru
ORCID iD: 0000-0001-8886-3684
SPIN-code: 6135-4872
Cand. Sci. (Biology)
Russian Federation, 24 Petrovka st, bldg 1, Moscow, 127051Anton V. Vladzymyrskyy
Research and Practical Clinical Center for Diagnostics and Telemedicine Technologies
Email: VladzimirskijAV@zdrav.mos.ru
ORCID iD: 0000-0002-2990-7736
SPIN-code: 3602-7120
MD, Dr. Sci. (Medicine)
Russian Federation, 24 Petrovka st, bldg 1, Moscow, 127051Arcadiy S. Goldberg
The Russian Medical Academy of Continuous Professional Education
Email: goldarcadiy@gmail.com
ORCID iD: 0000-0002-2787-4731
SPIN-code: 8854-0469
MD, Cand. Sci. (Medicine)
Russian Federation, MoscowIvan A. Blokhin
Research and Practical Clinical Center for Diagnostics and Telemedicine Technologies
Email: BlokhinIA@zdrav.mos.ru
ORCID iD: 0000-0002-2681-9378
SPIN-code: 3306-1387
MD, Cand. Sci. (Medicine)
Russian Federation, 24 Petrovka st, bldg 1, Moscow, 127051Roman V. Reshetnikov
Research and Practical Clinical Center for Diagnostics and Telemedicine Technologies
Email: ReshetnikovRV1@zdrav.mos.ru
ORCID iD: 0000-0002-9661-0254
SPIN-code: 8592-0558
Cand. Sci. (Physics and Mathematics)
Russian Federation, 24 Petrovka st, bldg 1, Moscow, 127051References
- Bonert M, Zafar U, Maung R, et al. Pathologist workload, work distribution and significant absences or departures at a regional hospital laboratory. PLOS ONE. 2022;17(3):e0265905. doi: 10.1371/journal.pone.0265905 EDN: UFNVFE
- Hou H, Zhang R, Li J. Artificial intelligence in the clinical laboratory. Clinica Chimica Acta. 2024;559:119724. doi: 10.1016/j.cca.2024.119724 EDN: PBDERB
- Munari E, Scarpa A, Cima L, et al. Cutting-edge technology and automation in the pathology laboratory. Virchows Archiv. 2023;484(4):555–566. doi: 10.1007/s00428-023-03637-z EDN: OSGENI
- Vasilev YuA, Vladzymyrskyy AV, Omelyanskaya OV, et al. Guidelines for preparing a systematic review. Moscow: State Budget-Funded Health Care Institution of the City of Moscow “Research and Practical Clinical Center for Diagnostics and Telemedicine Technologies of Moscow Health Care Department”; 2023. 34 p. (In Russ.) EDN: XKXHDA
- Anjankar AP, Jha RK, Lambe S. Implementation of artificial intelligence in laboratory medicine. Journal of Datta Meghe Institute of Medical Sciences University. 2023;18(4):598–601. doi: 10.4103/jdmimsu.jdmimsu_486_22 EDN: VBNWUF
- Kodenko MR, Vasilev YuA, Vladzymyrskyy AV, et al. Diagnostic accuracy of ai for opportunistic screening of abdominal aortic aneurysm in ct: a systematic review and narrative synthesis. Diagnostics. 2022;12(12):3197. doi: 10.3390/diagnostics12123197 EDN: ERWYPX
- Farrell CJ. Identifying mislabelled samples: machine learning models exceed human performance. Annals of Clinical Biochemistry: International Journal of Laboratory Medicine. 2021;58(6):650–652. doi: 10.1177/00045632211032991 EDN: MQQLCW
- Lea D, Gudlaugsson EG, Skaland I, et al. Digital image analysis of the proliferation markers Ki67 and phosphohistone H3 in gastroenteropancreatic neuroendocrine neoplasms: accuracy of grading compared with routine manual hot spot evaluation of the Ki67 index. Applied Immunohistochemistry & Molecular Morphology. 2021;29(7):499–505. doi: 10.1097/pai.0000000000000934 EDN: XIKRGL
- Lemieux ME, Reveles XT, Rebeles J, et al. Detection of early-stage lung cancer in sputum using automated flow cytometry and machine learning. Respiratory Research. 2023;24(1):23. doi: 10.1186/s12931-023-02327-3 EDN: HSQBUA
- Kimura K, Tabe Y, Ai T, et al. A novel automated image analysis system using deep convolutional neural networks can assist to differentiate MDS and AA. Scientific Reports. 2019;9(1):1–9. doi: 10.1038/s41598-019-49942-z EDN: PXXHII
- Yoon S, Hur M, Park M, et al. Performance of digital morphology analyzer Vision Pro on white blood cell differentials. Clinical Chemistry and Laboratory Medicine (CCLM). 2021;59(6):1099–1106. doi: 10.1515/cclm-2020-1701 EDN: GVMONA
- Kurstjens S, de Bel T, van der Horst A, et al. Automated prediction of low ferritin concentrations using a machine learning algorithm. Clinical Chemistry and Laboratory Medicine (CCLM). 2022;60(12):1921–1928. doi: 10.1515/cclm-2021-1194 EDN: HDJWKG
- Wang M, Dong C, Gao Y, et al. A deep learning model for the automatic recognition of aplastic anemia, myelodysplastic syndromes, and acute myeloid leukemia based on bone marrow smear. Frontiers in Oncology. 2022;12: 844978. doi: 10.3389/fonc.2022.844978 EDN: BQFWSO
- Kim H, Lee GH, Yoon S, et al. Performance of digital morphology analyzer Medica EasyCell assistant. Clinical Chemistry and Laboratory Medicine (CCLM). 2023;61(10):1858–1866. doi: 10.1515/cclm-2023-0100 EDN: ZDXONI
- Elagina EA, Margun AA. Research of machine learning methods in the problem of identification of blood cells. Scientific and Technical Journal of Information Technologies, Mechanics and Optics. 2021;21(6):903–911. doi: 10.17586/2226-1494-2021-21-6-903-911 EDN: ZVQLEV
- Ayyıldız H, Arslan Tuncer S. Is it possible to determine antibiotic resistance of E. coli by analyzing laboratory data with machine learning? Turkish Journal of Biochemistry. 2021;46(6):623–630. doi: 10.1515/tjb-2021-0040 EDN: JTZHYJ
- Van TT, Mata K, Bard JD. Automated detection of Streptococcus pyogenes pharyngitis by use of Colorex Strep A CHROMagar and WASPLab artificial intelligence chromogenic detection module software. Journal of Clinical Microbiology. 2019;57(11):e00811-19. doi: 10.1128/JCM.00811-19
- Faron ML, Buchan BW, Relich RF, et al. Evaluation of the WASPLab segregation software to automatically analyze urine cultures using routine blood and MacConkey agars. Journal of Clinical Microbiology. 2020;58(4):e01683-19. doi: 10.1128/jcm.01683-19 EDN: UDENAP
- Yang M, Nurzynska K, Walts AE, Gertych A. A CNN-based active learning framework to identify mycobacteria in digitized Ziehl–Neelsen stained human tissues. Computerized Medical Imaging and Graphics. 2020;84:101752. doi: 10.1016/j.compmedimag.2020.101752 EDN: AYLPVY
- Zurac S, Mogodici C, Poncu T, et al. A new artificial intelligence-based method for identifying mycobacterium tuberculosis in Ziehl–Neelsen stain on tissue. Diagnostics. 2022;12(6):1484. doi: 10.3390/diagnostics12061484 EDN: IJUCYT
- Wang Z, Zhang L, Zhao M, et al. Deep neural networks offer morphologic classification and diagnosis of bacterial vaginosis. Journal of Clinical Microbiology. 2021;59(2):e02236-20. doi: 10.1128/JCM.02236-20 EDN: GBZITD
- Lev-Sagie A, Strauss D, Ben Chetrit A. Diagnostic performance of an automated microscopy and pH test for diagnosis of vaginitis. NPJ Digital Medicine. 2023;6(1):66. doi: 10.1038/s41746-023-00815-w EDN: SVUVPJ
- Burton RJ, Albur M, Eberl M, Cuff SM. Using artificial intelligence to reduce diagnostic workload without compromising detection of urinary tract infections. BMC Medical Informatics and Decision Making. 2019;19:171. doi: 10.1186/s12911-019-0878-9
- Avci D, Sert E, Dogantekin E, et al. A new super resolution Faster R-CNN model based detection and classification of urine sediments. Biocybernetics and Biomedical Engineering. 2023;43(1):58–68. doi: 10.1016/j.bbe.2022.12.001 EDN: HQRRRR
- Mathison BA, Kohan JL, Walker JF, et al. Detection of intestinal protozoa in trichrome-stained stool specimens by use of a deep convolutional neural network. Journal of Clinical Microbiology. 2020;58(6):e02053-19. doi: 10.1128/jcm.02053-19 EDN: GWHHRT
- Wallace MB, Sharma P, Bhandari P, et al. Impact of artificial intelligence on miss rate of colorectal neoplasia. Gastroenterology. 2022;163(1):295–304.e5. doi: 10.1053/j.gastro.2022.03.007 EDN: CVAOAF
- Liang Y, Wang Z, Huang D, et al. A study on quality control using delta data with machine learning technique. Heliyon. 2022;8(8):e09935. doi: 10.1016/j.heliyon.2022.e09935 EDN: XNSZKR
- Zhou R, Liang Y, Cheng H, et al. A multi-model fusion algorithm as a real-time quality control tool for small shift detection. Computers in Biology and Medicine. 2022;148:105866. doi: 10.1016/j.compbiomed.2022.105866 EDN: OBKKZC
- Wang H, Wang H, Zhang J, et al. Using machine learning to develop an autoverification system in a clinical biochemistry laboratory. Clinical Chemistry and Laboratory Medicine (CCLM). 2020;59(5):883–891. doi: 10.1515/cclm-2020-0716 EDN: SVNLZY
- Lippi G, Mattiuzzi C, Favaloro E. Artificial intelligence in the pre-analytical phase: state-of-the art and future perspectives. Journal of Medical Biochemistry. 2024;43(1):1–10. doi: 10.5937/jomb0-45936 EDN: PVAVYI
- Blatter TU, Witte H, Nakas CT, Leichtle AB. Big data in laboratory medicine-FAIR quality for AI? Diagnostics. 2022;12(8):1923. doi: 10.3390/diagnostics12081923 EDN: MCJCST
- Ghassemi M, Oakden-Rayner L, Beam AL. The false hope of current approaches to explainable artificial intelligence in health care. The Lancet Digital Health. 2021;3(11):e745–e750. doi: 10.1016/s2589-7500(21)00208-9 EDN: EHUNYG
- Paranjape K, Schinkel M, Hammer RD, et al. The value of artificial intelligence in laboratory medicine. American Journal of Clinical Pathology. 2020;155(6):823–831. doi: 10.1093/ajcp/aqaa170 EDN: KUADLL
- Ghosh K, Bellinger C, Corizzo R, et al. The class imbalance problem in deep learning. Machine Learning. 2022;113(7):4845–4901. doi: 10.1007/s10994-022-06268-8 EDN: AQXQUP
- Certuficate of state registration of a computer program No. 2023665713/ 19.07.2023. Byul. No. 7. Vasilev YuA, Vladzymyrskyy AV, Omelyanskaya OV, et al. Web platform for technological and clinical monitoring of the results of digital medical image analysis algorithms. Available from: https://elibrary.ru/download/elibrary_54200632_17081735.PDF (In Russ.) EDN: JIEPJK
- Zinchenko VV, Arzamasov KM, Kremneva EI, et al. Technological defects in software based on artificial intelligence. Digital Diagnostics. 2023;4(4):593–604. doi: 10.17816/DD501759 EDN: ORUFMM
- Sharova DE, Garbuk SV, Vasilyev YuA. Artificial intelligence systems in clinical medicine: the world’s first series of national standards. Standards and Quality. 2023;(1):46–51. doi: 10.35400/0038-9692-2023-1-304-22 EDN: SNMGQA
- Laddi A, Goyal S, Savlania A. Vein segmentation and visualization of upper and lower extremities using convolution neural network. Biomedical Engineering. Biomedizinische Technik. 2024;69(5):455–464. doi: 10.1515/bmt-2023-0331 EDN: PRAAZI
- Macaskill P, Takwoingi Y, Deeks JJ, Gatsonis C. Chapter 9: Understanding meta-analysis. In: Deeks JJ, Bossuyt PM, Leeflang MM, Takwoingi Y, editors. Cochrane handbook for systematic reviews of diagnostic test accuracy. version 2.0 (updated July 2023). Cochrane; 2023 [cited 2024 Aug 17]. Available from: https://training.cochrane.org/handbook-diagnostic-test-accuracy/current
- Pennestrì F, Banfi G. Artificial intelligence in laboratory medicine: fundamental ethical issues and normative key-points. Clinical Chemistry and Laboratory Medicine (CCLM). 2022;60(12):1867–1874. doi: 10.1515/cclm-2022-0096 EDN: ZOALXU
- Muehlematter UJ, Daniore P, Vokinger KN. Approval of artificial intelligence and machine learning-based medical devices in the USA and Europe (2015–20): a comparative analysis. The Lancet Digital Health. 2021;3(3):e195–e203. doi: 10.1016/s2589-7500(20)30292-2 EDN: UWEZGN
Supplementary files
