Comparative analysis of modifications of U-Net neuronal network architectures in medical image segmentation
- Authors: Dostovalova A.M.1,2, Gorshenin A.K.1,2, Starichkova J.V.1, Arzamasov K.M.1,3
-
Affiliations:
- MIREA — Russian Technological University
- Federal Research Center Computer Science and Control of the Russian Academy of Sciences
- Research and Practical Clinical Center for Diagnostics and Telemedicine Technologies
- Issue: Vol 5, No 4 (2024)
- Pages: 833-853
- Section: Reviews
- Submitted: 03.04.2024
- Accepted: 06.06.2024
- Published: 05.11.2024
- URL: https://jdigitaldiagnostics.com/DD/article/view/629866
- DOI: https://doi.org/10.17816/DD629866
- ID: 629866
Cite item
Full Text
Abstract
Data processing methods based on neural networks are becoming increasingly popular in medical diagnostics. They are most commonly used to evaluate medical images of human organs using computed tomography, magnetic resonance imaging, ultrasound, and other non-invasive diagnostic methods. Disease diagnosis involves solving the problem of medical image segmentation, i.e. finding groups (regions) of pixels that characterize specific objects in the image. The U-Net neural network architecture developed in 2015 is one of the most successful tools to solve this issue. This review evaluated various modifications of the classic U-net architecture. The papers considered were divided into several key categories, such as modifications of the encoder and decoder; use of attention blocks; combination with elements of other architectures; methods for introducing additional attributes; transfer learning; and approaches for processing small sets of real-world data. Different training sets with the best parameters found in the literature were evaluated (Dice similarity score; Intersection over Union; overall accuracy, etc.). A summary table was developed showing types of images evaluated and abnormalities detected. Promising directions for further modifications to improve the quality of the segmentation are identified. The results can be used to detect diseases, especially cancer. Intelligent medical assistants can implement the presented algorithms.
Full Text
Введение
Обработка изображений программным обеспечением (ПО) на основе технологий искусственного интеллекта (ТИИ) играет ведущую роль в современной медицинской диагностике. В последние десятилетия с развитием вычислительной техники и алгоритмов машинного обучения возможности анализа изображений значительно расширились, на смену простым классификационным моделям пришли полноценные системы поддержки принятия врачебных решений (в том числе автономные).
Обработка медицинских изображений начинает свою историю с простых методов визуализации, к которым относятся рентгенография и маммография. Далее эти системы эволюционировали, и в настоящее время специалисты эффективно обрабатывают результаты компьютерной томографии (КТ) и магнитно-резонансной томографии (МРТ). Спектр задач, решаемых ПО на основе ТИИ, в лучевой диагностике сводится к визуализации, сегментации, регистрации, а также классификации и интерпретации данных.
Одной из самых сложных является задача сегментации медицинского изображения — поиска групп (областей) пикселов, характеризующих некоторые объекты на снимке, особенно если речь идёт о КТ или МРТ. Алгоритмы глубокого обучения показали впечатляющие результаты в задачах сегментации (выделения целевой области) патологических структур и последующей их классификации, значительно превосходя традиционные подходы по точности и скорости обработки данных [1]. Для её решения используют разные архитектуры — модели нейронных сетей, включающие в себя такие структурные компоненты как количество слоёв, количество нейронов в каждом слое, функции активации, методы оптимизации и др. Наибольшие успехи достигнуты с использованием архитектур U-Net, V-Net, DenseNet и Mask R-CNN [2–6].
С момента своего появления в 2015 году сеть-сегментатор U-Net де-факто стала стандартным инструментом обработки биомедицинских изображений, однако до сих пор даже базовая версия U-Net весьма эффективна в разнообразных медицинских приложениях, связанных с обработкой данных о поражениях различных органов человека, например, КТ-снимков почек, изменений в лёгких, вызванных COVID-19 или обструктивной болезнью лёгких [7–9]. Известна разновидность U-Net3D, отличающаяся от исходной архитектуры U-Net лишь использованием трёхмерных свёрток вместо двумерных [10]. Эта архитектура применяется для сегментирования трёхмерных медицинских изображений. Так, в работе A. Pantovic и соавт. [11] с помощью U-Net3D по снимкам КТ мозга с вживлёнными датчиками определяли область для проведения операции по удалению эпилептогенной зоны. В статье X. Han и соавт. [12] эта же архитектура применялась для сегментирования МРТ-снимков печени и выделения на изображении как её контуров, так и внутренних участков.
Классическая архитектура нейронной сети U-Net состоит из двух блоков: кодировщика и декодера. Кодировщик анализирует входные данные и, уменьшая их размер, выделяет наиболее важные для распознавания признаки, а декодер восстанавливает из сжатых кодировщиком данных изображение, разделённое на сегменты. С 2015 года разработано значительное количество модификаций классической архитектуры U-Net (U-архитектуры) (рис. 1), направленных на повышение точности, скорости и устойчивости её работы. Эти модификации возможно разделить на 4 основных направления: внутренние модификации кодировщика и декодера, не изменяющие структуры сети; ансамблирование — создание композиций из U-архитектур; введение в сеть элементов других архитектур и блоков внимания; разнообразные подходы внедрения в модель дополнительных признаков.
Рис. 1. Классическая архитектура U-Net, предложенная в 2015 г., и основные способы её модифицирования.
Указанные модификации также применяются для решения специальных задач сегментирования изображений, возникающих в случае работы с частично размеченными данными (Semi-supervised learning), или если данных для обучения сети мало (рис. 2). Во втором случае различают обучение по малым и экстремально малым наборам. При работе с малыми наборами обычно применяют техники дообучения и настройки (transfer learning и fine-tuning) на интересующие данные предобученных на более разнообразных наборах сетей.
Рис. 2. Задачи сегментации в зависимости от специфики обучающих данных.
В случае экстремально малых наборов (few-shot learning) предобучения оказывается недостаточно: подходы few-shot learning, как правило, связаны с использованием оригинальных архитектурных решений и моделей данных.
В настоящем обзоре проведена структуризация применяемых модификаций архитектуры U-Net в задачах обработки медицинских изображений. Раздел 1 посвящён описанию способов модифицирования U-архитектуры четырьмя основными способами — внесением внутренних модификаций в кодировщик и декодер, введением в сеть элементов других архитектур и блоков внимания и модифицированием процесса обучения сети. В разделе 2 приведены способы решения специальных задач сегментации медицинских изображений с использованием архитектуры U-Net. В заключении сформулированы краткие выводы по рассмотренному материалу.
Методология поиска
Авторами данной статьи проведён поиск научных публикаций за период с 2018 по 2024 год, размещённых в реферативных базах данных Web of Science, Scopus и PubMed. Результаты поисковой выдачи из различных баз схожи: они отражают ключевые тенденции в подходах к модифицированию архитектуры U-Net. Поисковые запросы основывались на наборе ключевых слов («U-Net», «medical images», «modification» и др.). Первичные результаты поисковой выдачи включали около 5 тыс. источников. Дальнейшее уточнение предполагало использование фильтров на основе дополнительных ключевых слов: «attention», «few-shot», «unsupervised», «semi-supervised», «ensemble», «stack», «additional features», «metadata», «DICOM data» и др.
Результаты, отражённые в обнаруженных работах, критически оценены с учётом возможности применения данной архитектуры для анализа медицинских изображений. Критерии включения в обзор были следующими:
- качество валидации результатов (проведение сравнения с другими архитектурами и подходами, использование общих известных метрик качества, полнота исследования);
- оригинальность архитектурной модификации в рамках соответствующего ей направления;
- специфичность задачи (детектируемой патологии или сегментируемого органа);
- использование открытых наборов данных.
В настоящей работе подробно рассмотрена архитектура U-Net, которая оказалась прорывной для многих задач сегментации медицинских изображений благодаря своей эффективности. Так, U-Net представлена в статье O. Ronneberger и соавт. [2], а позднее на её основе созданы различные вариации, например, U-Net++ [13], Attention U-Net [5], 3D U-Net [10], EU-Net [14], NAS-U-Net [15], U-Net 3+ [16], SwinAttU-Net [17]. Основные работы по различным способам модифицирования данной архитектуры, значения оценок точностей сегментации и используемые для проверки наборы данных (и их тип) перечислены в Приложении 1. Также приведены работы, в которых U-Net используется для решения специальных задач сегментирования. Используются сокращения метрик: DC — показатель сходства Dice, пересечение над объединением (IoU, intersection over union), OA (overall accuracy) — общая точность [18, 19].
Модификации архитектуры U-Net
Внутренние модификации кодировщика и декодера
Рассмотрим структурные элементы, которые изменяются при внутренних модификациях кодировщика и декодера U-архитектуры.
Блоки свёртки кодировщика и декодера. Так, в работе Z. Xu и соавт. [57] для обработки снимков спинномозговых структур (наборы данных Verse2019 и Verse2020) в блоке кодировщика свёрточные слои заменялись на линейные, а в декодере на октавные свёртки (комбинация блоков свёрток с пулингом для выделения из данных частотной информации). В статье Y. Ayalew и соавт. [58] в задаче определения опухолей в печени по КТ-снимкам в оригинальной U-архитектуре было уменьшено число каналов в свёртках и применялась батч-нормализация. Это позволило повысить точность работы сети на наборах с выраженным дисбалансом численности элементов разных классов. S. Guan и соавт. [59] для устранения искажений фотоаккустических изображений (например, мозга) применяли архитектуру с изменёнными свёрточными блоками, в которых результаты сворачивания на каждом из слоёв конкатенировались между собой и в дальнейшем обрабатывались совместно.
Связи между блоками кодировщика и декодера. Для определения на КТ-изображениях печени участков, содержащих опухоли, в работе F. Özcan и соавт. [60] связи между блоками кодировщика и декодировщика проходили через специальный inception-блок из свёрток с разным размером ядра, выходы которых конкатенировались между собой. В исследовании ряда других авторов связи между кодировщиком и декодером проходили через пирамиду пулинг-слоёв (несколько пулинг-слоёв с разным размером ядра, применяемых к одним и тем же данным) [61]. Данная модификация применялась для быстрого сегментирования ультразвуковых изображений печени.
Блоки регуляризации кодировщика или декодера. Например, B. Omarov и соавт. [62] для выявления по КТ-снимкам областей мозга, пострадавших от ишемического удара, использовали модифицированную архитектуру U-Net, в которой в декодер добавлены дропаут и слои, реализующие L2-регуляризацию.
Ансамблирование U-Net-архитектур. Так, для восстановления КТ-изображений из информации о проекциях объекта, полученных при его вращении, может быть использована композиция из нескольких последовательно соединённых U-Net, обучавшихся на преобразованных в синограммы изображений из набора ImageNet [63]. Также среди рассмотренных исследований существует опыт использования ансамбля из двух сетей U-Net3D, предобученных на наборе данных LiTS, для детектирования опухолей на трёхмерных КТ-изображениях печени [24, 64]. Первая сеть работала со снимками в низком разрешении (исходные уменьшенные изображения). Результаты их сегментирования передавались на вход второй сети. Использовалась функция потерь, объединяющая DС и кросс-энтропию. Составная композиция двух U-Net сетей, одна из которых выступала как блок пост-обработки и уточнения результатов, также использовалась для детектирования опухолей в печени [65].
В работе C.P. Koirala и соавт. [66] ансамбль из U-Net3D, ONet3D и SphereNet3D использовали для определения положения опухоли мозга. Ансамблирование реализовано как взвешивание (суммирование с умножением на число, выражающее значимость вклада сети в общий результат — её вес) выходов всех моделей для определения наиболее вероятного класса.
Z. Li и соавт. [67] среди нескольких U-Net-моделей лучшую выбирали с помощью U-Net-сети без модификаций.
В рассмотренных работах продемонстрировано, что небольшие модификации архитектуры U-Net способны повысить качество и эффективность её работы для решения медицинских задач.
Модификации с использованием механизмов внимания
В данном разделе рассмотрим подходы к модификации классической архитектуры U-Net путём внесения в модель блоков пространственного и поканального внимания [68]. В исследовании ряда авторов для детектирования на КТ-изображениях грудной клетки изменений, вызванных COVID-19, использовалась архитектура на основе U-Net3D с эффективным поканальным вниманием в блоках кодировщика [69]. Также применён Pyramid fusion module на нижнем уровне U-архитектуры. В нём проводили конкатенацию признаков, выделенных нейронными сетями с различным размером окон, и обработка полученных данных в слое пулинга по глобальному среднему значению. Для оптимизации использована функция потерь Tversky loss [70].
В другой работе рассматривалась задача одновременной сегментации нескольких органов по их КТ-изображениям [71]. В предложенной U-Net-архитектуре использован блок внимания, который получал на вход выходы блоков кодировщика и декодера. Эти выходы конкатенировались и преобразовывались одномерной свёрткой с использованием функций активации ReLU и сигмоиды [72].
В статье [73] для сегментирования онкологических поражений печени по КТ-снимкам использовалась архитектура U-Net с блоками пространственного многомасштабного внимания. Было использовано несколько блоков в разных частях архитектуры, как внутри кодировщика и декодировщика, так и на связях между ними.
L.В. Zhang и соавт. [74] в качестве блоков внимания использовали пирамидальный пулинг в нижней части U-архитектуры (соответствующей максимальному уровню сжатия данных) и блоки эффективного поканального внимания на связях между блоками кодировщика и декодера. Данная модификация применялась для сегментирования КТ-изображений опухолей печени. Для детектирования рака груди в следующей статье предложена архитектура U-Net c пространственным вниманием между блоками кодировщика, комбинирующим свёртки с несколькими рецептивными полями (рис. 3), обучавшаяся с помощью функции потерь Tversky [75].
Рис. 3. Схема блока пространственного внимания между элементами кодировщика [75].
В работе A. Subhan Akbar и соавт. [76] с помощью внимания модифицированы связи между блоками кодировщика и декодера в U-архитектуре, а их коллегами на её нижнем уровне для выделения признаков добавлен блок позиционного внимания, после в каждом слое декодировщика — блок самовнимания [77].
Использование в U-Net разнообразных блоков внимания направлено на выявление пространственных взаимосвязей между элементами изображения в разных масштабах, которые не выделяются основной архитектурой.
Модификации на основе добавления элементов других архитектур
Часто используемый способ модифицирования U-Net-архитектуры — внесение в основную архитектуру элементов других сетей, например, ResNet, трансформеров и др. В литературе описано несколько вариаций подобного механизма.
Полная модификация кодировщика и (или) декодера. В работе F. Xingfei и соавт. [78] для сегментирования изменений в лёгких, вызванных COVID-19, использована модификация U-Net, кодировщик в которой замещён сетью ResNet50 [79]. После кодировщика следовал блок поканального внимания и специальный пирамидальный пулинг. Возможно использование трансформерного кодировщика, выход которого с помощью операции деконволюции приводится к соответствующему масштабу для использования в разных частях U-архитектуры [80].
Модифицирование блоков кодировщика и декодера с сохранением общей структуры U-архитектуры. В статье S. Eskandari и соавт. [81] рассматривалась задача сегментирования КТ-снимков печени. Для учёта высокой вариативности формы и размера органа, а также его изменений положения на снимке использовалась комбинация сети-классификатора, определяющая на изображении положение печени, и модифицированная сеть U-Net. Модификация заключалась в замене блоков свёртки на блоки из архитектуры ConvLSTM, а также использования этих блоков при построении для связей между блоками кодировщика и декодера [82].
Для решения задачи выделения по фотографиям поражённых участков кожных покровов предложена архитектура, сочетающая блоки Efficient Tranformer с U-архитектурой (рис. 4) [83]. По метрикам DC, чувствительности, специфичности и точности она превзошла классическую U-Net, Att U-Net, TransU-Net, FAT-Net, Swin U-Net при обработке набора данных снимков поражений кожи ISIC 2018.
Рис. 4. Архитектура, сочетающая блоки трансформера с U-образной архитектурой [81].
В работе F. Ghofrani и соавт. [84] для сегментации изображений полипов (Kvasir-SEG, CVC-ClinicDB, CVC-ColonDB, EndoScene) используется композиция U-архитектуры (U-Net без модификаций) c блоками трансформера (рис. 5), которая превзошла по точности U-Net, ResU-Net++ и DoubleU-Net [36, 37, 85, 86].
Рис. 5. Композиция U-Net и Transformer [83].
Могут быть объединены элементы U-Net и Swin-Transformer, U-Net и BTSwin- Transformer, U-Net и DenseNet в задаче трёхмерной сегментации снимков печени [87–89].
Как и в случае внесения в архитектуру изменений с помощью блоков внимания, использование элементов других архитектур позволяет повысить качество обработки изображений за счёт выделения неявных взаимосвязей между частями снимка иным способом. Популярным является применение трансформерных блоков, использующих механизм самовнимания как способ выявления скрытых признаков.
Внедрение дополнительных признаков в U-Net
В литературе в качестве дополнительных признаков медицинских изображений обычно берутся их метаданные из файлов формата DICOM. Они имеют табличную структуру, среди них встречаются как непрерывные характеристики, так и категориальные переменные. Часто метаданные подаются на вход какой-либо другой сети, обучающейся как одновременно, так и отдельно от основного блока сегментатора. Внедрение дополнительной информации в основную сеть производится обычно с помощью разнообразных механизмов внимания. Например, при решении задачи сегментирования опухолей спинного мозга информацию о метаданных встраивают прямо в модель сегментатора, который имеет U-архитектуру, в каждый блок которой вставляется блок линейного преобразования выходов предшествующего свёрточного слоя [90]. Параметры преобразования (сдвиг и масштаб) определяются вынесенным из U-архитектуры генератором, получающем на вход метаданные о сегментируемом изображении. В статье R. Du и соавт. [91] реализован механизм поканального внимания, при этом метаданные использовались для обучения сети 3D-RADNet, выделяющей среди набора срезов те, что содержат интересующий орган (печень). Выделенные с использованием метаданных срезы поступали на вход сегментатору, имевшему U-архитектуру. Для сегментирования почечных опухолей в том числе может быть использовано поканальное внимание: метаданные встраиваются в сеть с помощью внутриканального внимания и составляют выходы структурных блоков U-образной архитектуры [92]. После последнего свёрточного слоя блока данные изображения и его метаданные попадают в слой, в котором последние подаются на вход многослойному перцептрону с сигмоидальной функцией активации. Его выходы перемножаются поканально на данные изображения, поступившие из предшествующего свёрточного слоя.
Помимо метаданных возможно использование и иных источников информирования U-Net:
- двухветочной архитектуры из свёрточной сети [93];
- CNNFormer для сегментирования печени (такая композиция позволяет учитывать пространственные связи внутри слайса и иерархические между ними) [94];
- дополнительные признаки (результаты сегментирования позвоночника, лёгких, границ кожного покрова, собранные с помощью Python-библиотеки bodynavigation) [95].
Эти данные конкатенировались с исходными изображениями для уточнения положения органа на снимке. Подход применялся для сегментирования КТ-изображений печени архитектурами U-Net и U-Net3D (слайсами или целиком).
Модификации процесса обучения U-Net нередко связаны с подходом итеративного повторного использования признаков. Так, в работе P. Ernst и соавт. [96] рассматривается задача восстановления КТ снимков из их синограмм. Для этого авторы используют комбинацию U-Net3D и Primal-Dual network, реализующую итеративный подход к обучению (на каждом следующем шаге полученное изображение комбинируется с результатами предшествующей итерации). В следующей статье предложен подход повышения точности сегментации изображений за счёт повторного использования выделенных в процессе обучения признаков данных [97]. Архитектура RecycleNet строится на базе U-Net. Сеть разделяется на три блока:
- I — блок входных данных;
- R — блок повторного использования скрытых признаков;
- O — блок результата (рис. 6).
Рис. 6. Схема разделения архитектуры U-Net на блоки [97].
Алгоритм повторного использования признаков представлен на рис. 6. Сначала случайным образом из заданного диапазона значений выбирается число итераций, которое будет использоваться для принятия решений. После признаки, выделенные на предшествующей итерации, нормализуются и складываются со значениями, выделенными на текущей итерации (фактически, реализуется пространственный эмбеддинг). После выполнения заданного числа итераций сеть выдаёт выходное значение. Экспериментальная проверка RecycleNet проводилась на наборах данных KiTS 2019 (рак почек), LiTS, BTCV, AMOS (мультиорганная сегментация), CHAOS (МРТ-снимки) [23, 24, 33, 40]. Предложенная архитектура сравнивалась с использованием специальной модификации метрики DC с сетями nnU-Net и DRU [98]. Во всех задачах RecycleNet превзошла перечисленные архитектуры.
Таким образом, использование дополнительных признаков позволяет повысить точность обработки изображений с помощью U-Net. Нередко дополнительные данные содержат в себе закономерности, которые не проявляются вовсе или проявляются в самих изображениях, но менее явно.
Решение специальных задач сегментации с использованием архитектуры u-net
Tрансферное обучение и тонкая настройка U-Net
В задачах обработки медицинских изображений часто возникает ситуация, когда для обучения сети имеется лишь небольшой набор данных, имеющих сложную структуру. Недостаток данных обусловлен как сложностью их разметки, так и ограничениями, возникающими из-за соглашений о приватности. Один из подходов к решению задач в таких случаях — использование предобученных моделей с последующей тонкой настройкой (fine-tuning) с помощью имеющегося в распоряжении набора данных.
В исследовании M. Heker и соавт. [99] рассматривалась задача сегментирования небольшого набора данных КТ-снимков печени для обнаружения в нём опухолей различного типа. Для этого архитектура U-Net вначале обучалась на наборе данных LiTS, после чего веса её кодировщика иерархически «замораживались». Вначале веса кодировщика объявлялись нейтральными (неизменяющимися в процессе обучения). Оставшаяся часть сети учила заданное число итераций, а после по одному «замороженные» веса назначались обучаемыми, выполнялась их настройка.
В статье ряда авторов архитектура U-Net использовала кодировщик на основе ResNet32, который вначале обучался на ImageNet, а после дообучался на изображениях оптической когерентной томографии [100]. Другие исследователи рассматривали техники дообучения U-Net и U-Net3D для сегментации изображений различных органов и заболеваний, а также подходы, включавшие в том числе варьирование числа обучаемых слоёв [101, 102].
Существует также метод для трансферного обучения (transfer learning) архитектур U-Net и EfficientNet, созданных сегментировать двумерные изображениях, с целью переноса результатов для обработки трёхмерных изображений [103, 104]. Авторами метода были предложены два способа — повышение частоты дискретизации двумерных весов в соответствующих им по порядку блоках трёхмерных архитектур или работа с проекциями трёхмерных данных на плоскость с дальнейшей обработкой обученной на двумерных данных сетью (рис. 7).
Рис. 7. Типы соотношений между размеченными и неразмеченными данными при обучении и тестировании сетей: a — SSL; b — UDA; c — SemiDG [106].
Иной подход к доообучению — проведение пост-обработки результатов сегментирования изображения с помощью U-Net. Так, в статье Y. Hong и соавт. [105] рассмотрена задача сегментирования печени по снимкам КТ. В качестве модификации предложена процедура постобработки результатов сегментирования U-Net. Она заключалась в оптимизации энергетического функционала, состоящего из слагаемого, отвечающего за выделение контуров на изображении, и слагаемого, отвечающего за оптимизацию меток класса вокселов внутри рассматриваемого региона.
Эффективность стратегий тонкой настройки и трансферного обучения в целом во многом зависит от наборов данных, на которых сеть предобучалась. Она будет тем выше, чем более близки по типам рассматриваемых объектов обучающий и целевой набор. Однако последнее нередко неосуществимо, особенно в случае специфических задач: наборов данных достаточного размера часто не существует, особенно, если речь идёт про трёхмерные данные. Перспективным видится подход дообучения на более простых данных меньшей размерности, получение которых в достаточных объёмах сопряжено с меньшими сложностями.
Методы с частичным привлечением учителя
Нередко отсутствие обучающих данных в достаточном количестве для работы сложных архитектур обусловлено недоступностью экспертной разметки «сырых» данных, так как это трудоёмкий процесс, требующий большого опыта и знаний в предметной области. Существуют различные стратегии обучения U-архитектур с привлечением неразмеченных данных, ориентирующихся на подходы с частичным привлечением учителя.
H. Wang и соавт. [106] рассматривают задачу обучения сетей сегментации трёхмерных медицинских моделей органов на наборах частично размеченных данных. Создан фреймворк, способный работать с различными типами соотношений между размеченными и неразмеченными данными при обучении и тестировании сети (см. рис. 7):
- рис. 7, а: размеченные, неразмеченные наборы и данные для тестирования принадлежат одному типу (тестовое множество выделено пунктиром);
- рис. 7, b: размеченные данные принадлежат одному типу, неразмеченные и данные для теста — другому;
- рис. 7, c: обучающий набор состоит из размеченных и неразмеченных данных разных типов. Тестовые данные по своей сути с ними полностью различны.
Построенный фреймворк состоит из двух блоков (рис. 8): блока агрегирования и блока разделения. Первый состоит из кодировщика предложенной в данной работе сети Diffusion VNet, применяемой для сегментации изображений для взаимосвязей первого типа. Второй состоит из трёх декодеров VNet, каждый из которых генерирует метки классов определённого типа. Первый декодер генерирует несмещённые относительно типа данных метки (с функцией потерь, объединяющей кросс-энтропию и DC), используемые для получения меток ревзвешенных классов (вес использовался в функции потерь, состоявшей из суммы оценки DC всех классов размеченных данных). Взвешивание позволяло более эффективно обучать «отстающие» классы. Второй декодер генерировал неразмеченным данным псевдо-метку класса, использовавшуюся для обучения третьего декодера по принципу обучения без учителя.
Рис. 8. Схема A&D фреймворка [106].
Фреймворк обучался на наборах данных LASeg (МРТ мозга), Synapse (различные органы), MMWHS и M&Ms (сердце) [47–50]. Результаты его работы сравнивались с результатами архитектур UA-MT, LMISA-3D, vMFNet, SS-Net и др. в терминах метрик DC, Жаккарда, HD95. Фреймворк продемонстрировал в ряде случаев превосходящие или сопоставимые результаты со сравниваемыми с ним специализированными архитектурами.
J. Wang и соавт. [107] рассмотрели задачу адаптирования обученной сети для сегментации небольшого целевого набора данных (сегментирование полипов). Исследовалась ситуация, когда целевой набор состоял из изображений, похожих на те, на которых обучалась сеть, но при этом не был размечен. Для обучения сети использовались две техники: контрастное обучение и псевдомаркировка с калибровкой.
При контрастном обучении неразмеченные изображения в наборе по отношению к снимку размечаются на позитивные (согласующиеся с ним) и негативные. Традиционно позитивными считались изображения, полученные из снимка в результате аугментации, а негативными — остальные. Для разметки использовалась обученная на другом наборе данных сеть, генерировавшая для целевого набора псевдо-маски. Предсказанные сетью маски использовались для вычисления значений энтропии и центров классов на снимках.
Для повышения достоверности создаваемой псевдомаски добавлен блок её попиксельной калибровки с учётом предшествующих предсказаний. Для оценки эффективности подхода в задаче сегментации изображений полипов (наборы данных ClinicDB, ETIS-LARIB, Kvasir-SEG) предложенная архитектура сравнивалась с сетями, реализующими техники Bidirectional Learning (BDL), Fourier Domain Adaptation (FDA), Historical Contrastive Learning (HCL), and Denoised Pseudo-Labeling. В терминах различных вариаций метрики DC, IoU предложенная архитектура превзошла перечисленные альтернативы.
В статье T. Wang и соавт. [108] предложен метод сегментации изображений органов человека, в том числе полученных в ходе проведения операций, для наборов, состоящих из частично размеченных данных.
Для работы с неразмеченными данными используется конфигурация (рис. 9), состоящая из двух сетей одинаковой архитектуры, получающих на вход одно и то же изображение. Сети инициализированы по-разному и потому объединение результатов их использования позволяет получать предсказания более высокой точности, чем при работе с каждой из них по отдельности. С целью избежать искажений при присваивании неразмеченным данным псевдо-меток в случаях, когда классы представлены в обучающем наборе неравномерно, восстанавливался не общий закон распределения данных, а частные распределения классов по отдельности.
Рис. 9. Архитектура из двух сетей для обучения на наборах, в которых классы представлены неравномерно [108].
Для согласования частных плотностей классов использовалось преобразование экспоненциального скользящего среднего, приименного к матрицам согласования классов для размеченных и неразмеченных данных. Для оценки эффективности предложенного подхода рассматривались наборы данных CaDIS (снимки ведения операций), LGE-MRIs и ACDC (болезни сердца). Результаты работы метода сравнивались с результатами архитектур URPC, UAMT, CLD и CPS в терминах метрик DC, Жаккардовой и др. Метод превзошёл перечисленные архитектуры.
Таким образом, грамотный выбор архитектурных решений позволяет эффективно использовать неразмеченные данные для обучения U-архитектур в том числе в случае дисбаланса классов.
Обучение U-Net на экстремально малых наборах реальных данных
Разработка ПО на основе ТИИ для отдельных медицинских задач сопряжена со сложностью подготовки обучающего набора данных требуемого размера [109]. Необходимо наличие специализированного ПО для обработки текстовых протоколов и приведения их к структурированному виду [110–112]. По этой причине, а также вследствие высокой стоимости разметки данных, разработчикам приходится сталкиваться с наличием ограниченного числа размеченных исследований для машинного обучения, поэтому одной из распространённых техник для работы с медицинскими изображениями являются методы обучения на экстремально малых наборах реальных данных (few-shot).
Учёными рассмотрена задача диагностирования рака лёгких по снимкам компьютерной и позитронно- эмиссионной томографии [113]. U-Net без модификаций обучалась с использованием аугментации данных и их дополнением в процессе обучения и тестирования модели обратной связью от эксперта, оценивающего результаты её работы. В другом исследовании использовали тот же подход, только для данных по COVID-19 [114]. В следующей статье для повышения качества сегментирования изображений в архитектуре U-Net модифицирован кодировщик по типу Siamese Net: добавлена вторая ветка, получавшая на вход изображение, умноженное на свою маску (сегмент), веса которой объединены с весами первой ветви кодировщика, получавшей на вход обычное изображение без изменений [115].
В приложениях к медицинским изображениям применение данной техники чаще встречается для архитектур, отличающихся от U-Net, что, возможно, связано с размером и числом нейронов этой сети.
Заключение
Классическая архитектура U-Net — эффективный инструмент для сегментирования медицинских изображений. Это обусловило популярность данной архитектуры, а также количество способов улучшения результатов её работы с помощью модификаций. Для U-Net распространены модификации различных типов, направленные как на более точное интерпретирование имеющихся данных, так и на обобщение признаков, полученных во время предобучения на различных, в том числе и неразмеченных, наборах. Также возможно разделение модификаций по решаемым задачам (например, сегментирование и выявление поражённых тканей) и наборам данных, соответствущих определённым заболеваниям. Диагностическая точность решений на основе U-Net архитектур может быть повышена с помощью использования дополнительных обучающих признаков, извлекаемых из данных или математической модели в текстовом или табличном виде.
Архитектуры на основе U-Net применяются для решения задач сегментирования медицинских изображений, разнообразных как по своим постановкам, так и по используемым данным (различные типы снимков и патологий). Каждая из таких задач имеет свою специфику, потому выделить одну универсальную архитектуру или хотя бы класс, позволяющие одинаково эффективно решать произвольную из них, не представляется возможным. Однако среди рассмотренных лучшие результаты продемонстрированы на основе модификации нейронной сети U-Net с использованием элементов других архитектур. Это решение зарекомендовало себя не только в классической постановке задачи сегментирования снимков (с использованием блоков трансформерных архитектур), но и в случаях, когда данных для обучения недостаточно (например, метод предобучения с использованием сетей меньшей размерности, чем целевые данные). Высокий потенциал имеют и методы внедрения разнообразных дополнительных признаков в нейросетевые архитектуры, а также вариации подходов физического информирования нейронных сетей моделями изучаемых объектов или структуры изображения.
Дополнительная информация
Приложение 1. Способы модифицирования архитектуры U-Net. doi: 10.17816/DD629866-4224037
Источник финансирования. Данная статья подготовлена авторским коллективом в рамках НИОКР «Разработка платформы повышения качества ИИ-Сервисов для медицинской диагностики» (№ ЕГИСУ: 123031400006-0) в соответствии с Приказом от 21.12.2022 г. № 1196 «Об утверждении государственных заданий, финансовое обеспечение которых осуществляется за счёт средств бюджета города Москвы государственным бюджетным (автономным) учреждениям подведомственным Департаменту здравоохранения города Москвы, на 2023 год и плановый период 2024 и 2025 годов» Департамента здравоохранения города Москвы. Ряд нейросетевых конфигураций тестировался на ресурсах федерального государственного бюджетного образовательного учреждения высшего образования «МИРЭА — Российский технологический университет» в рамках дополнительного соглашения №1 от 24 ноября 2023 года к соглашению о сотрудничестве №1 от 07.07.2022 г., Москва.
Конфликт интересов. Авторы декларируют отсутствие явных и потенциальных конфликтов интересов, связанных с публикацией настоящей статьи. Рисунки 1 и 2 являются оригинальными и выполнены авторами. Рисунки 3–9 распространяются под лицензией CC BY 4.0 и приведены в данной работе в неизменном виде со ссылкой на оригинальные работы, где были впервые представлены.
Вклад авторов. Все авторы подтверждают соответствие своего авторства международным критериям ICMJE (все авторы внесли существенный вклад в разработку концепции, проведение поисково-аналитической работы и подготовку статьи, прочли и одобрили финальную версию перед публикацией). Наибольший вклад распределён следующим образом: А.М. Достовалова — сбор и обработка материалов, написание текста статьи; А.К. Горшенин — постановка задачи, анализ и систематизация подходов, концептуализация, написание текста статьи; Ю.В. Старичкова, К.М. Арзамасов — концепция работы, написание текста статьи.
Additional information
Appendix 1. Ways to modify the U-Net architecture. doi: 10.17816/DD629866-4224037
Funding source. This article was prepared by a group of authors as a part of the research and development effort titled «Development of a platform for improving the quality of AI services for clinical diagnostics» (USIS No.: 123031400006-0) in accordance with the Order No. 1196 dated December 21, 2022 «On approval of state assignments funded by means of allocations from the budget of the city of Moscow to the state budgetary (autonomous) institutions subordinate to the Moscow Health Care Department, for 2023 and the planned period of 2024 and 2025» issued by the Moscow Health Care Department. The research was carried out using the infrastructure of the federal state budgetary educational institution of higher education «MIREA – Russian Technological University» within the framework of additional agreement No. 1 dated November 24, 2023 to the cooperation agreement No. 1 dated 07.07.2022, (Moscow).
Competing interests. The authors declare that they have no competing interests. Figures 1 and 2 are original and made by the authors. Figures 3-9 are distributed under the CC BY 4.0 license and are presented in this work unchanged with reference to the original works where they were first presented.
Authors’ contribution. All authors made a substantial contribution to the conception of the work, acquisition, analysis, interpretation of data for the work, drafting and revising the work, final approval of the version to be published and agree to be accountable for all aspects of the work. A.M. Dostovalova — collection and processing of materials, writing the text of the article; A.K. Gorshenin — problem statement, analysis and systematization of approaches, conceptualization, writing the text of the article; Ju.V. Starichkova, K.M. Arzamasov — concept of the work, writing the text of the article.
About the authors
Anastasia M. Dostovalova
MIREA — Russian Technological University; Federal Research Center Computer Science and Control of the Russian Academy of Sciences
Email: adostovalova@frccsc.ru
ORCID iD: 0009-0004-9420-4182
SPIN-code: 3784-0791
Russian Federation, Moscow; Moscow
Andrey K. Gorshenin
MIREA — Russian Technological University; Federal Research Center Computer Science and Control of the Russian Academy of Sciences
Email: agorshenin@frccsc.ru
ORCID iD: 0000-0001-8129-8985
SPIN-code: 1512-3425
Dr. Sci. (Physics and Mathematics), Assistant Professor
Russian Federation, Moscow; MoscowJulia V. Starichkova
MIREA — Russian Technological University
Email: starichkova@mirea.ru
ORCID iD: 0000-0003-1804-9761
SPIN-code: 3001-6791
Cand. Sci. (Engineering), Assistant Professor
Russian Federation, MoscowKirill M. Arzamasov
MIREA — Russian Technological University; Research and Practical Clinical Center for Diagnostics and Telemedicine Technologies
Author for correspondence.
Email: ArzamasovKM@zdrav.mos.ru
ORCID iD: 0000-0001-7786-0349
SPIN-code: 3160-8062
MD, Cand. Sci. (Medicine), Head of Medical Informatics, Radiomics and Radiogenomics Department
Russian Federation, Moscow; MoscowReferences
- Shen D, Wu G, Suk HI. Deep Learning in Medical Image Analysis. Annual Review of Biomedical Engineering. 2017;19:221–248. doi: 10.1146/annurev-bioeng-071516-044442
- Ronneberger O, Fischer P, Brox T. U-Net: Convolutional Networks for Biomedical Image Segmentation. Medical Image Computing and Computer-Assisted Intervention (MICCAI) 2015. 2015:9351. doi: 10.1007/978-3-319-24574-4_28
- Milletari F, Navab N, Ahmadi SA. V-Net: Fully Convolutional Neural Networks for Volumetric Medical Image Segmentation. Fourth International Conference on 3D Vision (3DV). 2016:565–571. doi: 10.48550/arXiv.1606.04797
- Chen LC, Papandreou G, Kokkinos I, Murphy K, Yuille A. DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs. IEEE Transactions on Pattern Analysis and Machine Intelligence. 2017;40(4):834–848. doi: 10.1109/TPAMI.2017.2699184
- Huang G, Liu Z, Van Der Maaten L, Weinberger KQ. Densely Connected Convolutional Networks. IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2017:2261–2269. doi: 10.1109/CVPR.2017.243
- He K, Gkioxari G, Dollár P, Girshick R. Mask R-CNN. IEEE International Conference on Computer Vision (ICCV). 2017:2980–2988. doi: 10.1109/ICCV.2017.322
- Khalal DM., Azizi H, Maalej N. Automatic segmentation of kidneys in computed tomography images using U-Net. Cancer/Radiothérapie. 2023;27(2):109–114. doi: 10.1016/j.canrad.2022.08.004
- Bernardo Gois FN, Lobo Marques JA. Segmentation of CT-Scan Images Using UNet Network for Patients Diagnosed with COVID-19. Computerized Systems for Diagnosis and Treatment of COVID-192023. 2023:29–44. doi: 10.1007/978-3-031-30788-1_3
- Sarsembayeva T, Shomanov A, Sarsembayev M, et al. UNet Model for Segmentation of COPD Lung Lesions on Computed Tomography Images. Proceedings of the 7th International Conference on Digital Technologies in Education, Science and Industry (DTESI 2022). 2022. Available at: https://ceur-ws.org/Vol-3382/Short5.pdf. Accessed: November 9, 2024.
- Çiçek Ö, Abdulkadir A, Lienkamp S, Brox T, Ronneberger O. 3D U-Net: Learning Dense Volumetric Segmentation from Sparse Annotation. Medical Image Computing and Computer-Assisted Intervention — MICCAI 2016. 2016:424–432. doi: 10.1007/978-3-319-46723-8_4
- Pantovic A, Ollivier I, Essert C. 2D and 3D-UNet for segmentation of SEEG electrode contacts on post-operative CT scans. Medical Imaging 2022: Image-Guided Procedures, Robotic Interventions, and Modeling. 2022. doi: 10.1117/12.2606538
- Han X, Wu X, Wang S, et al. Automated segmentation of liver segment on portal venous phase MR images using a 3D convolutional neural network. Insights Imaging. 2022;13(26). doi: 10.1186/s13244-022-01163-1
- Zhou Z, Rahman Siddiquee MM, Tajbakhsh N, Liang J. UNet++: A Nested U-Net Architecture for Medical Image Segmentation. Deep Learning in Medical Image Analysis and Multimodal Learning for Clinical Decision Support. 2018:3–11. doi: 10.1007/978-3-030-00889-5_1
- Yu C, Wang Y, Tang C, Feng W, Lv J. EU-Net: Automatic U-Net neural architecture search with differential evolutionary algorithm for medical image segmentation. Computers in Biology and Medicine. 2023;167:107579. doi: 10.1016/j.compbiomed.2023.107579
- Weng Y, Zhou T, Li Y, Qiu X. NAS-Unet: Neural Architecture Search for Medical Image Segmentation. IEEE Access. 2019;7:44247–44257. doi: 10.1109/ACCESS.2019.2908991
- Huang H, Lin L, Tong R, et al. UNet 3+: A Full-Scale Connected UNet for Medical Image Segmentation. ICASSP 2020–2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2020:1055–1059. doi: 10.1109/ICASSP40776.2020.9053405
- Li C, Bagher-Ebadian H, Sultan RI, et al. A new architecture combining convolutional and transformer-based networks for automatic 3D multi-organ segmentation on CT images. Med Phys. 2023;50(11):6990–7002. doi: 10.1002/mp.16750
- Müller D, Soto-Rey I, Kramer F. Towards a guideline for evaluation metrics in medical image segmentation. BMC Research Notes. 2022;15(210). doi: 10.1186/s13104-022-06096-y
- Alberg AJ, Park JW, Hager BW, Brock MV, Diener-West M. The use of «overall accuracy» to evaluate the validity of screening or diagnostic tests. Journal of General Internal Medicine. 2004;19:460–465. doi: 10.1111/j.1525-1497.2004.30091.x
- Soler L, Hostettler A, Agnus V, et al. 3D image reconstruction for comparison of algorithm database: A patient specific anatomical and medical image database. IRCAD. 2010. Available at: https://www-sop.inria.fr/geometrica/events/wam/abstract-ircad.pdf. Accessed: November 9, 2024.
- Löffler M, Sekuboyina A, Jakob A, et al. A Vertebral Segmentation Dataset with Fracture Grading. Radiology: Artificial Intelligence. 2020;2(4). doi: 10.1148/ryai.2020190138
- Wang Z, Bovik AC, Sheikh HR, Simoncelli EP. Image quality assessment: from error visibility to structural similarity. IEEE Transactions on Image Processing. 2004;13(4):600–612. doi: 10.1109/TIP.2003.819861
- Kavur AE, Gezer NS, Barıs M, et al. CHAOS Challenge – combined (CT-MR) healthy abdominal organ segmentation. Medical Image Analysis. 2021;69:101950. doi: 10.1016/j.media.2020.101950
- Bilic P, Christ P, Li HB, et al. The Liver Tumor Segmentation Benchmark (LiTS). Medical Image Analysis. 2023;84:102680. doi: 10.1016/j.media.2022.102680
- Petrusca L, Cattin P, De Luca V, et al. Hybrid ultrasound/magnetic resonance simultaneous acquisition and image fusion for motion monitoring in the upper abdomen. Investigative Radiology. 2013;48(5):333–340. doi: 10.1097/RLI.0b013e31828236c3
- Jun M, Cheng G, Yixin W, et al. Covid-19 CT lung and infection segmentation dataset. Zenodo. 2020. Available at: https://zenodo.org/records/3757476#.YLov8vkzaUk. Accessed: November 9, 2024.
- Morozov SP, Andreychenko AE, Blokhin IA, et al. MosMedData: data set of 1110 chest CT scans performed during the COVID-19 epidemic. Digital Diagnostics. 2020;1(1):49–59. doi: 10.17816/DD46826
- Roth HR, Oda H, Hayashi Y, et al. Hierarchical 3D fully convolutional networks for multi-organ segmentation. ArXiv. 2017. Available at: https://arxiv.org/abs/1704.06382v1. Accessed: November 9, 2024.
- Roth H, Farag A, Turkbey EB, et al. Data from Pancreas-CT. Data From Pancreas-CT (Version 2) [Data set]. The Cancer Imaging Archive. 2016. doi: 10.7937/K9/TCIA.2016.tNB1kqBU
- Heimann T, Styner M, van Ginneken B. 3D Segmentation in the Clinic: A Grand Challenge. MICCAI 2007, the 10th Intel Conf. on Medical Image Computing and Computer Assisted Intervention. 2007:7–15. Available at: https://www.diagnijmegen.nl/publications/ginn07/. Accessed: November 9, 2024.
- Suckling J. The Mammographic Image Analysis Society Digital Mammogram Database. International Congress Series. 1994:375–378. Available at: http://peipa.essex.ac.uk/info/mias.html. Accessed: November 9, 2024.
- WHO Director-General’s opening remarks at the media briefing on COVID-19 — 11 March 2020 [Internet]. 2020. Available at: https://www.who.int/director-general/speeches/detail/who-director-general-s-opening-remarks-at-the-media-briefing-on-covid-19---11-march-2020. Accessed: November 9, 2024.
- Landman B, Xu Z, Igelsias J, et al. Miccai multi-atlas labeling beyond the cranial vault–workshop and challenge. Proceedings of the MICCAI Multi-Atlas Labeling Beyond Cranial Vault — Workshop Challenge. 2015;5:12.
- Simpson AL, Antonelli M, Bakas S, et al. A large annotated medical image dataset for the development and evaluation of segmentation algorithms. ArXiv. 2019. doi: 10.48550/arXiv.1902.09063
- Gutman D, Codella NCF, Celebi E, et al. Skin Lesion Analysis toward Melanoma Detection: A Challenge at the International Symposium on Biomedical Imaging (ISBI) 2016, hosted by the International Skin Imaging Collaboration (ISIC). ArXiv. 2016. doi: 10.48550/arXiv.1605.01397
- Jha D, Smedsrud PH, Riegler MA, et al. Kvasir-SEG: A Segmented Polyp Dataset. MultiMedia Modeling. 2020;11962:451–462. doi: 10.1007/978-3-030-37734-2_37
- Bernal J, Sánchez FJ, Fernández-Esparrach G, et al. WM-DOVA maps for accurate polyp highlighting in colonoscopy: Validation vs. saliency maps from physicians. Computerized Medical Imaging and Graphics. 2015;43:99–111. doi: 10.1016/j.compmedimag.2015.02.007
- Grove O, Berglund AE, Schabath MB, et al. Quantitative Computed Tomographic Descriptors Associate Tumor Shape Complexity and Intratumor Heterogeneity with Prognosis in Lung Adenocarcinoma. PLOS ONE. 2015;10(3):e0118261. doi: 10.1371/journal.pone.0118261
- Heller N, Sathianathen N, Kalapara A, et al. The KiTS19 Challenge Data: 300 Kidney Tumor Cases with Clinical Context, CT Semantic Segmentations, and Surgical Outcomes. ArXiv. 2019:13. doi: 10.48550/arXiv.1904.00445
- Ji Y, Bai H, Yang J, et al. AMOS: A Large-Scale Abdominal Multi-Organ Benchmark for Versatile Medical Image Segmentation. ArXiv. 2022. doi: 10.48550/arXiv.2206.08023
- Lemay A, Gros C, Zhuo Z, et al. Multiclass Spinal Cord Tumor Segmentation on MRI with Deep Learning. ArXiv. 2021. doi: 10.48550/arXiv.2012.12820
- Ali MAS, Misko O, Salumaa SO, et al. Evaluating Very Deep Convolutional Neural Networks for Nucleus Segmentation from Brightfield Cell Microscopy Images. SLAS Discovery. 2021;26(9):1125–1137. doi: 10.1177/24725552211023214
- Gibson E, Giganti F, Hu Y, et al. Automatic Multi-Organ Segmentation on Abdominal CT With Dense V-Networks. IEEE Transactions on Medical Imaging. 2018;37(8):1822–1834. doi: 10.1109/TMI.2018.2806309
- Jimenez-del Toro O, Müller H, Krenn M, et al. Cloud-Based Evaluation of Anatomical Structure Segmentation and Landmark Detection Algorithms: VISCERAL Anatomy Benchmarks. IEEE Transactions on Medical Imaging. 2016;35(11):2459–2475. doi: 10.1109/TMI.2016.2578680
- Regan EA, Hokanson JE., Murphy JR, et al. Genetic Epidemiology of COPD (COPDGene) Study Design. COPD: Journal of Chronic Obstructive Pulmonary Disease. 2010;7(1):32–43. doi: 10.3109/15412550903499522
- Litjens G, Toth R, van de Ven W, et al. Evaluation of prostate segmentation algorithms for MRI: The PROMISE12 challenge. Medical Image Analysis. 2014;18(2):359–373. doi: 10.1016/j.media.2013.12.002
- Xiong Z, Xia Q, Hu Z, et al. A global benchmark of algorithms for segmenting the left atrium from late gadolinium-enhanced cardiac magnetic resonance imaging. Medical Image Analysis. 2021;67:101832. doi: 10.1016/j.media.2020.101832
- Landman B, Xu Z, Igelsias J, et al. 2015 MICCAI multi-atlas labeling beyond the cranial vault–workshop and challenge. MICCAI Multi-Atlas Labeling Beyond Cranial Vault — Workshop Challenge. 2015;5:12.
- Zhuang X, Shen J. Multi-scale patch and multi-modality atlases for whole heart segmentation of MRI. Medical Image Analysis. 2016;31:77–87. doi: 10.1016/j.media.2016.02.006
- Campello VM, Gkontra P, Izquierdo C, et al. Multi-Centre, Multi-Vendor and Multi-Disease Cardiac Segmentation: The M&Ms Challenge. IEEE Transactions on Medical Imaging. 2021;40(12):3543–3554. doi: 10.1109/TMI.2021.3090082
- Silva J, Histace A, Romain O, Dray X, Granado B. Toward embedded detection of polyps in WCE images for early diagnosis of colorectal cancer. International Journal of Computer Assisted Radiology and Surgery. 2014;9:283–293. doi: 10.1007/s11548-013-0926-3
- Trikha S, Turnbull A, Morris R, Anderson D, Hossain P. The journey to femtosecond laser-assisted cataract surgery: New beginnings or a false dawn? Eye. 2013;27(4):461–473. doi: 10.1038/eye.2012.293
- Xiong Z, Xia Q, Hu Z, et al. A global benchmark of algorithms for segmenting the left atrium from late gadolinium-enhanced cardiac magnetic resonance imaging. Medical Image Analisys. 2021;67:101832. doi: 10.1016/j.media.2020.101832
- Bernard O, Lalande A, Zotti C, et al. Deep Learning Techniques for Automatic MRI Cardiac Multi-Structures Segmentation and Diagnosis: Is the Problem Solved? IEEE Transactions on Medical Imaging. 2018;37(11):2514–2525. doi: 10.1109/TMI.2018.2837502
- Li P, Wang S, Li T, et al. A Large-Scale CT and PET/CT Dataset for Lung Cancer Diagnosis (Lung-PET-CT-Dx) [Data set]. The Cancer Imaging Archive. 2020. doi: 10.7937/TCIA.2020.NNC2-0461
- Clark K, Vendt B, Smith K, et al. The Cancer Imaging Archive (TCIA): Maintaining and Operating a Public Information Repository. Journal of Digital Imaging. 2013;26:1045–1057. doi: 10.1007/s10278-013-9622-7
- Xu Z, Jia Z, Sun J, Dong W, Li Z. DO-U-Net: Improved U-Net Model for CT Image Segmentation using DBB and Octave Convolution. Proceedings of the 2023 International Conference on Computer, Vision and Intelligent Technology (ICCVIT ‘23). 2023:1–8. doi: 10.1145/3627341.3630403
- Ayalew Y, Fante K, Aliy M. Modified U-Net for liver cancer segmentation from computed tomography images with a new class balancing method. BMC Biomedical Engineering. 2021;3(4). doi: 10.1186/s42490-021-00050-y
- Guan S, Khan AA, Sikdar S, Chitnis PV. Fully Dense UNet for 2-D Sparse Photoacoustic Tomography Artifact Removal. IEEE Journal of Biomedical and Health Informatics. 2020;24(2):568–576. doi: 10.1109/JBHI.2019.2912935
- Özcan F, Uçan ON, Karaçam S, Tunçman D. Fully Automatic Liver and Tumor Segmentation from CT Image Using an AIM-UNet. Bioengineering. 2023;10(2). doi: 10.3390/bioengineering10020215
- Ansari MY, Yang Y, Meher PK, Dakua SP. Dense-PSP-UNet: A neural network for fast inference liver ultrasound segmentation. Computers in Biology and Medicine. 2023;153:106478. doi: 10.1016/j.compbiomed.2022.106478
- Omarov B, Tursynova A, Postolache O, et al. Modified UNet Model for Brain Stroke Lesion Segmentation on Computed Tomography Images. Computers, Materials and Continua. 2022;71(3):4701–4717. doi: 10.32604/cmc.2022.020998
- Mizusawa S, Sei Y, Orihara R, Ohsuga A. Computed tomography image reconstruction using stacked U-Net. Computerized Medical Imaging and Graphics. 2021;90:101920. doi: 10.1016/j.compmedimag.2021.101920
- Golts A, Khapun D, Shats D, Shoshan Y, Gilboa-Solomon F. An Ensemble of 3D U-Net Based Models for Segmentation of Kidney and Masses in CT Scans. Kidney and Kidney Tumor Segmentation (KiTS 2021). 2022;13168:103–115. doi: 10.1007/978-3-030-98385-7_14
- Araújo JDL, da Cruz LB, Diniz JOB, et al. Liver segmentation from computed tomography images using cascade deep learning. Computers in Biology and Medicine. 2022;140:105095. doi: 10.1016/j.compbiomed.2021.105095
- Koirala CP, Mohapatra S, Gosai A, Schlaug G. Automated Ensemble-Based Segmentation of Adult Brain Tumors: A Novel Approach Using the BraTS AFRICA Challenge Data. ArXiv. 2023. doi: 10.48550/arXiv.2308.07214
- Li Z, Zhu Q, Zhang L, et al. A deep learning-based self-adapting ensemble method for segmentation in gynecological brachytherapy. Radiation Oncology. 2022;17(152). doi: 10.1186/s13014-022-02121-3
- Woo S, Park J, Lee J-Y, Kweon IS. CBAM: Convolutional Block Attention Module. Proceedings of the European conference on computer vision (ECCV). 2018:3–19. doi: 10.48550/arXiv.1807.06521
- Nazir S, Zheng R, Zheng Y, Dong-Ye C. Improved 3D U-Net for COVID-19 Chest CT Image Segmentation. Scientific Programming. 2021;2021(9999368):9. doi: 10.1155/2021/9999368
- Salehi SSM, Erdogmus D, Gholipour A. Tversky Loss Function for Image Segmentation Using 3D Fully Convolutional Deep Networks. Machine Learning in Medical Imaging. 2017;10541:379–387. doi: 10.1007/978-3-319-67389-9_44
- Oktay O, Schlemper J, Folgoc LL, et al. Attention U-Net: Learning Where to Look for the Pancreas. ArXiv. 2018. doi: 10.48550/arXiv.1804.03999
- Agarap AF. Deep Learning using Rectified Linear Units (ReLU). ArXiv. 2018:7. doi: 10.48550/arXiv.1803.08375
- Wu J, Zhou S, Zuo S, et al. U-Net combined with multi-scale attention mechanism for liver segmentation in CT images. BMC Medical Informatics and Decision Making. 2021;21(283). doi: 10.1186/s12911-021-01649-w
- Zhang L, Liu Y, Li Z, Li D. Epa-unet:automatic Segmentation of Liver and Tumor in Ct Images Based on Residual U-net and Efficient Multiscale Attention Methods. Research Square. 2023. doi: 10.21203/rs.3.rs-3273964/v1
- Zarbakhsh P. Spatial Attention Mechanism and Cascade Feature Extraction in a U-Net Model for Enhancing Breast Tumor Segmentation. Applied Sciences. 2023;13(15):8758. doi: 10.3390/app13158758
- Subhan Akbar A, Fatichah C, Suciati N. UNet3D with Multiple Atrous Convolutions Attention Block for Brain Tumor Segmentation. Brainlesion: Glioma, Multiple Sclerosis, Stroke and Traumatic Brain Injuries. 2022:182–193. doi: 10.1007/978-3-031-08999-2_14
- Yu Z, Han S, Song Z. 3D Medical Image Segmentation based on multi-scale MPU-Net. ArXiv. 2023. doi: 10.48550/arXiv.2307.05799
- Xingfei F, Chaobing H. CAE-UNet: An Effective Automatic Segmentation Model for CT Images of COVID-19. 2022 6th International Conference on Communication and Information Systems (ICCIS). 2022:113–117. doi: 10.1109/ICCIS56375.2022.9998131
- He K, Zhang X, Ren S, Sun J. Deep Residual Learning for Image Recognition. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2016:770–778. doi: 10.1109/cvpr.2016.90
- Hatamizadeh A, Tang Y, Nathet V, et al. U-NETR: Transformers for 3D Medical Image Segmentation. 2022 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV). 2022:1748–1758. doi: 10.1109/WACV51458.2022.00181
- Eskandari S, Lumpp J. Inter-Scale Dependency Modeling for Skin Lesion Segmentation with Transformer-based Networks. ArXiv. 2023. doi: 10.48550/arXiv.2310.13727
- Shi X, Chen Z, Wang H, et al. Convolutional LSTM Network: A Machine Learning Approach for Precipitation Nowcasting. Neural Information Processing Systems. 2015. doi: 10.48550/arXiv.1506.04214
- Pham TH, Li X, Nguyen KD. SeU-Net-Trans: A Simple yet Effective UNet-Transformer Model for Medical Image Segmentation. ArXiv. 2023. doi: 10.48550/arXiv.2310.09998
- Ghofrani F, Behnam H, Motlagh HDK. Liver Segmentation in CT Images Using Deep Neural Networks. 2020 28th Iranian Conference on Electrical Engineering (ICEE). 2020:1–6. doi: 10.1109/ICEE50131.2020.9260809
- Diakogiannis FI, Waldner F, Caccetta P, Wuet C, et al. ResUNet-a: A deep learning framework for semantic segmentation of remotely sensed data. ISPRS Journal of Photogrammetry and Remote Sensing. 2020;16(2):94–114. doi: 10.1016/j.isprsjprs.2020.01.013
- Jha D, Riegler MA, Johansen D, Halvorsen P, Johansen HD. Doubleu-net: DoubleU-Net: A Deep Convolutional Neural Network for Medical Image Segmentation. IEEE 33rd International symposium on computer-based medical systems (CBMS). 2020:558–564. doi: 10.1109/CBMS49503.2020.00111
- Lee HH, Bao S, Huo Y, Landman BA. 3D UX-Net: A Large Kernel Volumetric ConvNet Modernizing Hierarchical Transformer for Medical Image Segmentation. International Conference on Learning Representations. 2023. doi: 10.48550/arXiv.2209.15076
- Liang J, Yang C, Zhong J, Ye X. BTSwin-U-Net: 3D U-shaped Symmetrical Swin Transformer-based Network for Brain Tumor Segmentation with Self-supervised Pre-training. Neural Processing Letters. 2022;55:3695–3713. doi: 10.1007/s11063-022-10919-1
- Alalwan N, Abozeid A, ElHabshy AA, Alzahrani A. Efficient 3D Deep Learning Model for Medical Image Semantic Segmentation. Alexandria Engineering Journal. 2021;60(1):1231–1239. doi: 10.1016/j.aej.2020.10.046
- Lemay A, Gros C, Vincent O, et al. Benefits of Linear Conditioning with Metadata for Image Segmentation. ArXiv. 2021. doi: 10.48550/arXiv.2102.09582
- Du R, Vardhanabhuti V. 3D-RADNet: Extracting labels from DICOM metadata for training general medical domain deep 3D convolution neural networks. International Conference on Medical Imaging with Deep Learning. 2020;121:174–192. Available at: https://proceedings.mlr.press/v121/du20a/du20a.pdf. Accessed: November 9, 2024.
- Plutenko I, Papkov M, Palo K, Parts L, Fishman D. Metadata Improves Segmentation Through Multitasking Elicitation. Domain Adaptation and Representation Transfer. 2023:147–155. doi: 10.1007/978-3-031-45857-6_15
- Jiang J, Peng Y, Hou Q, Wang J. MDCF_Net: A Multi-dimensional hybrid network for liver and tumor segmentation from CT. Biocybernetics and Biomedical Engineering. 2023;43(2):494–506. doi: 10.1016/j.bbe.2023.04.004
- Fu T, Yu Q, Lao H, Liu P, Wan S. Traffic Safety Oriented Multi-Intersection Flow Prediction Based on Transformer and CNN. Security and Communication Networks. 2023:1–13. doi: 10.1155/2023/1363639
- Chen X, Wei X, Tang M, et al. Liver segmentation in CT imaging with enhanced mask region-based convolutional neural networks. Annals of Translational Medicine. 2021;9(24):1768. doi: 10.21037/atm-21-5822
- Ernst P, Chatterjee S, Rose G, Nürnberger A. Primal-Dual U-Net for Sparse View Cone Beam Computed Tomography Volume Reconstruction. ArXiv. 2022. doi: 10.48550/arXiv.2205.07866
- Koehler G, Wald T, Ulrichet C, et al. RecycleNet: Latent Feature Recycling Leads to Iterative Decision Refinement. ArXiv. 2023. doi: 10.48550/arXiv.2309.07513
- Jafari M, Auer D, Francis S, Garibaldi J, Chen X. DRU-net: An Efficient Deep Convolutional Neural Network for Medical Image Segmentation. 2020 IEEE 17th International Symposium on Biomedical Imaging (ISBI). 2020:1144–1148. doi: 10.48550/arXiv.2004.13453
- Heker M, Ben-Cohen A, Greenspan H. Hierarchical Fine-Tuning for joint Liver Lesion Segmentation and Lesion Classification in CT. 2019 41st Annual International Conference of the IEEE Engineering in Medicine and Biology Society (EMBC). 2019:895–898. doi: 10.1109/EMBC.2019.8857127
- Matovinovic IZ, Loncaric S, Lo J, Heisler M, Sarunic M. Transfer Learning with U-Net type model for Automatic Segmentation of Three Retinal Layers In Optical Coherence Tomography Images. 2019 11th International Symposium on Image and Signal Processing and Analysis (ISPA). 2019:49–53. doi: 10.1109/ISPA.2019.8868639
- Kora P, Ooi CP, Faust O, et al. Transfer learning techniques for medical image analysis: A review. Biocybernetics and Biomedical Engineering. 2022;42(1):79–107. doi: 10.1016/j.bbe.2021.11.004
- Humpire-Mamani GE, Jacobs C, Prokop M, van Ginneken B, Lessmann N. Transfer learning from a sparsely annotated dataset of 3D medical images. ArXiv. 2023. doi: 10.48550/arXiv.2311.05032
- Messaoudi H, Belaid A, Salem DB, Conze P-H. Cross-dimensional transfer learning in medical image segmentation with deep learning. Medical Image Analysis. 2023;88:102868. doi: 10.1016/j.media.2023.102868
- Tan M, Le Q. EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks. International conference on machine learning (PMLR). 2019:6105–6114. doi: 10.48550/arXiv.1905.11946
- Hong Y, Mao X, Hui Q. et al. Automatic liver and tumor segmentation based on deep learning and globally optimized refinement. Applied Mathematics-A Journal of Chinese Universities. 2021;36:304–316. doi: 10.1007/s11766-021-4376-3
- Wang H, Li X. Towards Generic Semi-Supervised Framework for Volumetric Medical Image Segmentation. ArXiv. 2023. doi: 10.48550/arXiv.2310.11320
- Wang J, Chen C. Unsupervised Adaptation of Polyp Segmentation Models via Coarse-to-Fine Self-Supervision. Information Processing in Medical Imaging. 2023:250–262. doi: 10.1007/978-3-031-34048-2_20
- Wang T, Huang Z, Wu J, Cai Y, Li Z. Semi-Supervised Medical Image Segmentation with Co-Distribution Alignment. Bioengineering. 2023;10(7):869. doi: 10.3390/bioengineering10070869
- Vasilev YA, Bobrovskaya TM, Arzamasov KM, et al. Medical datasets for machine learning: fundamental principles of standartization and systematization. Manager Zdravoochranenia. 2023(4):28–41. doi: 10.21045/1811-0185-2023-4-28-41
- Kokina DYu, Gombolevskiy VA. Arzamasov KM, Andreychenko АE, Morozov SP Possibilities and limitations of using machine text-processing tools in Russian radiology reports. Digital Diagnostics. 2022;3(4):374–383. doi: 10.17816/DD101099
- Ronzhin LV, Astanin PA, Kokina DYu, et al Semantic analysis methods in the system for authomated marking of the unstructured radiological chest examination protocols. Social’nye aspekty zdorov’a naselenia. 2023;69(1):12. doi: 10.21045/2071-5021-2023-69-1-12
- Tomashevskaya VS, Yakovlev DA. Research of unstructured data interpretation problems. Russian Technological Journal. 2021;9(1):7–17. doi: 10.32362/2500-316X-2021-9-1-7-17
- Protonotarios N, Katsamenis I, Sykiotis S, et al. A few-shot U-Net deep learning model for lung cancer lesion segmentation via PET/CT imaging. Biomedical Physics and Engineering Express. 2022;8:025019. doi: 10.1088/2057-1976/ac53bd
- Voulodimos A, Protopapadakis E, Katsamenis I, Doulamis A, Doulamis N. A Few-Shot U-Net Deep Learning Model for COVID-19 Infected Area Segmentation in CT Images. Sensors. 2021;21(6):2215. doi: 10.3390/s21062215
- Zhao G, Zhao H. One-Shot Image Segmentation with U-Net. Journal of Physics: Conference Series. 2021;1848(1):012113. doi: 10.1088/1742-6596/1848/1/012113
Supplementary files
