Classification of adrenocortical carcinoma, pheochromocytoma, and adrenal adenomas using contrast-enhanced computed tomography with machine learning and texture features: a cross-sectional study

Cover Image


Cite item

Full Text

Abstract

BACKGROUND: Differential diagnosis of adrenocortical carcinoma, pheochromocytoma, and adrenal adenomas based on contrast-enhanced computed tomography remains challenging because of substantial overlap in their radiologic characteristics. Existing classification approaches based on conventional morphological criteria demonstrate limited accuracy, which may result in misdiagnosis and inappropriate treatment strategies.

AIM: This study aimed to develop a machine learning model for multiclass classification of adrenal lesions (adenomas, adrenocortical carcinoma, and pheochromocytoma) using contrast-enhanced computed tomography data with texture features.

METHODS: This was a single-center, cross-sectional study with retrospective computed tomography data acquisition and prospective re-analysis of imaging results. Contrast-enhanced computed tomography images were processed using PyRadiomics to extract texture features for each computed tomography phase. Data standardization was performed to reduce the impact of variability in scanning parameters. LightGBM, XGBoost, and CatBoost gradient boosting models were trained using stratified five-fold cross-validation. Diagnostic performance was assessed using recall, precision, F1-score, macro-averaged F1-score, specificity, balanced accuracy, and area under the receiver operating characteristic curve (AUC) for each diagnostic category.

RESULTS: The study included data from 425 patients with histologically verified adrenal tumors: 42 cases of adrenocortical carcinoma, 204 pheochromocytomas, and 179 adrenal adenomas. The developed machine learning models demonstrated high classification performance by cross-validation for adrenal adenomas (F1-score up to 0.916 for the XGBoost model) and pheochromocytomas (F1-score up to 0.855 for the XGBoost model), but substantially lower performance for adrenocortical carcinoma (F1-score up to 0.521 for the CatBoost model). The highest AUC values reached 0.971 for adenomas (LightGBM), 0.924 for pheochromocytomas (LightGBM), and 0.879 for adrenocortical carcinoma (CatBoost). Balanced accuracy reached up to 0.773, and the macro-averaged F1-score reached 0.747 (CatBoost model). Analysis of the most informative features showed that parameters reflecting texture homogeneity and intensity across different contrast-enhancement phases were most relevant for classification.

CONCLUSION: Radiomics and machine learning methods provide high diagnostic accuracy for multiclass classification of adrenal lesions on contrast-enhanced computed tomography for adrenal adenomas and pheochromocytomas. However, diagnostic performance for adrenocortical carcinoma remains limited, which may be related to tumor heterogeneity and the relatively small number of cases.

Full Text

ОБОСНОВАНИЕ

Дифференциальная диагностика образований надпочечников представляет одну из ключевых задач современной онкорадиологии. Компьютерная томография (КТ) с контрастным усилением признана основным методом визуализации опухолей надпочечников в силу высокого пространственного и контрастного разрешения [1]. Для дифференциации доброкачественных и злокачественных образований надпочечников применяют как бесконтрастную КТ, так и с контрастным усилением [2]. В рекомендациях Европейского эндокринологического общества сообщают о шести исследованиях диагностической точности бесконтрастной КТ [3–8]. Отмечено, что значение рентгеновской плотности > 10 HU характеризуется 100% чувствительностью в отношении диагностики злокачественных образований и вместе с тем относительно низкой средней специфичностью (58%). Диагностическая точность КТ с оценкой вымывания контраста в дифференциации злокачественных и доброкачественных образований надпочечников изучена в исследовании W. Schloetelburg и соавт. [6]. Так, авторы установили, что при относительном коэффициенте вымывания 58% удаётся добиться 100% чувствительности, однако специфичность при этом составила 15%. Таким образом, можно констатировать, что современный протокол КТ не позволяет убедительно разграничить доброкачественные и злокачественные новообразования надпочечников [адренокортикальный рак (АКР), феохромоцитомы] вследствие значительного перекрытия их характеристик на изображениях КТ.

Недостатки КТ создают серьёзные клинические риски. Например, в случае АКР необходимо хирургическое лечение [9], тогда как аденомы допускают динамическое наблюдение [10–13]. В свою очередь, феохромоцитомы могут иметь похожую семиотику по данным КТ с аденомами и АКР [14]. В таких условиях радиомика — метод количественного анализа текстурных и морфологических признаков на медицинских изображениях — становится перспективным инструментом для преодоления ограничений стандартной КТ, обеспечивая количественную оценку опухолевой гетерогенности [15], что отмечено и в рекомендациях Европейского общества эндокринологов [2]. Систематический обзор 28 исследований демонстрирует потенциальные возможности КТ-радиомики в дифференциальной диагностике опухолей надпочечников, показывая высокую диагностическую точность [площадь под кривой (Area Under the Curve, AUC) — 0,88] [16]. Однако авторы обзора отмечают высокую гетерогенность включённых исследований, что ставит под сомнение надёжность этих результатов. Более того, анализ подгрупп не выявил преимуществ исследований, использовавших машинное обучение, по сравнению с теми, которые его не применяли. В то же время, поскольку количество таких работ было невелико (n = 3), авторы метаанализа заключили, что для объективной оценки эффективности методов машинного обучения в радиомике надпочечников необходимы дальнейшие исследования. В другом систематическом обзоре M. Ferro и соавт. [17] также отмечено, что исследования демонстрируют высокий диагностический потенциал КТ-радиомики: значение AUC = 0,88 для дифференциации доброкачественных и злокачественных образований надпочечников, а также функциональных и нефункциональных опухолей. Авторы отдельно подчёркивают бóльшую эффективность КТ по сравнению с магнитно-резонансной томографией. Несмотря на обнадёживающие результаты, область сталкивается с вызовами, такими как небольшой размер выборок и отсутствие стандартизации. В исследовании с участием пациентов со злокачественными образованиями лёгких модель машинного обучения (на основе метода опорных векторов) с применением признаков радиомики успешно дифференцировала метастазы в надпочечниках и доброкачественные образования (AUC = 0,938), превосходя традиционные клинико-рентгенологические подходы (оценка гормональной активности, качественная оценка результатов нативной КТ и показателей вымывания контраста) [18]. В другом исследовании, посвящённом дифференциации функционирующих и нефункционирующих аденом надпочечников, с применением логистической регрессии на основе текстурных признаков нативной, артериальной и венозной фаз изображений КТ достигнута точность до 83%. Полученные результаты указывают на перспективность метода для минимизации частоты использования с диагностической целью инвазивных тестов [19].

Несмотря на прогресс, практически все исследования в этой области сосредоточены на бинарной классификации (доброкачественные и злокачественные) или узких подгруппах (например, дифференцировка аденом на типы). При этом комплексные модели для диагностики одновременно трёх ключевых классов новообразований надпочечников — аденомы, АКР и феохромоцитомы — не разрабатывали. Исследование, проведённое L. Tucci и соавт. [20], является единственным, в котором рассматривали классификацию опухолей надпочечников более чем на 2 класса. Однако его результаты являются предварительными и опубликованы в виде материалов конференции. Именно поэтому неясными остаются архитектура модели, её параметры и особенности предобработки данных. В то же время подход с многоклассовой классификацией представляется нам принципиально важным, поскольку феохромоцитомы, несмотря на потенциально злокачественный характер, требуют диагностической и терапевтической стратегии, отличающейся от таковой при АКР и аденомах [2].

ЦЕЛЬ

Разработать модель машинного обучения для многоклассовой классификации образований надпочечников (аденомы, АКР, феохромоцитомы) по данным КТ с контрастным усилением с применением текстурных признаков.

МЕТОДЫ

Дизайн исследования

Проведено одноцентровое одномоментное исследование, ретроспективное в части сбора данных КТ, проспективное — в части повторного анализа изображений КТ.

Источник данных

В исследование включали данные пациентов, зарегистрированных в медицинской информационной системе Национального медицинского исследовательского центра (НМИЦ) эндокринологии имени академика И.И. Дедова (Москва) в период с января 2018 г. по декабрь 2024 г.

Критерии отбора

Критерии включения:

  • факт удаления образования надпочечника;
  • гистологически подтверждённый диагноз аденомы, АКР или феохромоцитомы;
  • наличие четырёхфазной КТ с контрастным усилением, выполненной в НМИЦ эндокринологии имени академика И.И. Дедова.

Критерии невключения:

  • наличие артефактов в области надпочечников на изображениях КТ (артефакты движения, кольцевые артефакты);
  • сомнительные результаты патоморфологического исследования.

Критерии исключения: не запланированы.

Исход исследования

Исходом исследования (предсказываемым событием) считали наличие образования надпочечника — аденомы, АКР или феохромоцитомы — верифицированного по результатам гистологического исследования послеоперационного материала при стандартной процедуре в отделе фундаментальной патоморфологии НМИЦ эндокринологии имени академика И.И. Дедова.

Методы измерения целевых показателей

Образцы образований надпочечников получали при плановых адреналэктомиях. Хирургический материал маркировали и помещали в 10% буферный формалин с объёмным отношением фиксатор : ткань порядка 10:1. Время фиксации составляло 24–48 ч. Далее образцы подвергали стандартной гистологической проводке с использованием гистопроцессора Leica® ASP6025 S (Leica Biosystems, Германия), затем проводили заливку в парафин. Из парафиновых блоков изготавливали экваториальные срезы с помощью микротома Leica® RM 2125 RTS (Leica Biosystems, Германия). Срезы депарафинировали и окрашивали гематоксилином и эозином на аппарате Leica® ST5010 AXL (Leica Biosystems, Германия). Морфологическое изучение препаратов проводили методом световой микроскопии с применением микроскопа Leica® DM2500 (Leica Microsystems, Германия). Для количественной морфометрии использовали программу Aperio® ImageScope (Leica Microsystems, Германия). Морфологическую оценку новообразований коры надпочечников проводили в соответствии с общепринятыми гистопатологическими критериями:

  • размер и масса опухоли;
  • выраженность ядерного полиморфизма;
  • митотическая активность (подсчёт митозов в 10 полях зрения при увеличении ×400);
  • особенности цитоплазмы опухолевых клеток (прозрачная в 0–25 или 26–100% случаев);
  • архитектурный тип роста (диффузный или недиффузный);
  • наличие атипичных митозов, очагов некроза, а также признаков инвазии — капсулярной, венозной, синусоидальной и инвазии в смежные структуры.

Злокачественный потенциал адренокортикальных опухолей определяли по критериям шкалы L.M. Weiss [21]. В случае диагностики онкоцитарных опухолей с характерной зернистой, резко эозинофильной цитоплазмой, выраженным ядерным полиморфизмом и диффузным типом роста применяли модифицированную шкалу Lin–Weiss–Bisceglia [22]. Критерием адренокортикальной карциномы является ≥ 4 признаков по шкале Weiss.

Митотическую активность определяли путём подсчёта числа митотических фигур в 50 полях высокого увеличения (×400), используя микроскоп Leica® DM2500 (Leica Microsystems, Германия). Подсчёт осуществляли в участках с наибольшей плотностью митозов. При возможности поля высокого увеличения выбирали на разных предметных стёклах. Диффузную архитектуру опухоли устанавливали, если более 33% площади среза представляли участки роста без чёткой органоидной структуры.

Для оценки сосудистой инвазии различали вены — эндотелий с выраженным мышечным слоем — и синусоиды, выстланные эндотелием, но лишённые значимой мышечной оболочки. Венозную или синусоидальную инвазию устанавливали при обнаружении в просвете таких сосудов опухолевых клеток, прилежащих к их стенке, как внутри, так и за пределами опухоли надпочечника. Капсулярную инвазию определяли в случаях полного прорастания опухолью окружающей капсулы.

Злокачественный потенциал феохромоцитомы оценивали с использованием шкалы PASS (Pheochromocytoma of the Adrenal Gland Scaled Score), которая включает 12 основных морфологических признаков. При сумме баллов ≥ 4 потенциал злокачественности опухоли оценивали как высокий [23].

Дифференциальная диагностика опухолей надпочечника во всех случаях выполнена в отделе фундаментальной патоморфологии на основании результатов иммуногистохимического исследования тех же образцов. Основная иммуногистохимическая панель включала маркёры коркового гистогенеза опухоли — стероидогенный фактор 1, ингибин A и мелан-A, а также маркёры нейроэндокринной дифференцировки — хромогранин A, синаптофизин (для определения всех маркёров использовали наборы Leica, Германия). Во всех случаях АКР и адренокортикальных аденом выявлено позитивное окрашивание при использовании антител к стероидогенному фактору 1, который имеет наибольшую чувствительность (98%) и специфичность (100%), а также является критерием адренокортикальных опухолей [24].

На всём протяжении исследования (2018–2024 гг.) изменений в методике гистологического и иммуногистохимического исследований не было.

Данные компьютерной томографии с контрастным усилением

Анализировали результаты дооперационной КТ с контрастным усилением, выполненной как в НМИЦ эндокринологии имени академика И.И. Дедова, так и в других медицинских учреждениях по протоколу исследования брюшной полости. Последние в формате компактдисков анализировали врачи-рентгенологи отделения компьютерной и магнитно-резонансной томографии НМИЦ эндокринологии имени академика И.И. Дедова в период с ноября 2024 г. по июль 2025 г. Все КТ с контрастным усилением выполнены в период от 1 сут до 1 мес. до хирургического вмешательства.

Проведение компьютерной томографии

КТ в НМИЦ эндокринологии имени академика И.И. Дедова в период с 2018 по 2024 гг. проводили параллельно на томографах Optima® CT660 и Revolution® CT (GE Healthcare, США) с различными параметрами сканирования в зависимости от фазы (нативная, артериальная, венозная, отсроченная). Основные параметры для томографа Optima® CT660 (GE Healthcare, США): напряжение на трубке — 100–120 кВ; расстояние между срезами — 0,625 мм; толщина среза — 1,25 мм. Для томографа Revolution® CT (GE Healthcare, США): напряжение на трубке — 100–140 кВ; расстояние между срезами — 0,625–1,25 мм; толщина среза — 0,625–1,25 мм. Контрастирование проводили с помощью двухколбового автоматического инжектора Medrad Stellant® (Bayer, Германия), скорость введения 3,5–4 мл/с на протяжении всего периода проведения КТ с контрастным усилением. Артериальную фазу выполняли на 10 с после срабатывания триггера болюса, установленного на нисходящем отделе аорты на уровне диафрагмы (120 НU), венозную фазу — на 30 с от триггера болюса, отсроченную фазу — на 10–15 мин после введения контрастного препарата.

Постобработка изображений

Сегментацию областей образований надпочечников на изображениях КТ проводили с применением open-source программного обеспечения 3D Slicer® 5.6.2 (Slicer Community, США) для каждой фазы сканирования. После сегментации осуществляли вычисление текстурных признаков с применением языка программирования Python 3.9.21, модуль PyRadiomics® 3.1.0 (Computational Imaging & Bioinformatics Lab, США). Выполняли расчёт 106 признаков (для каждой фазы КТ с контрастным усилением) нескольких групп:

  • статистические признаки первого порядка — на основе гистограммы распределения интенсивности элементов текстуры в области интереса (Region of Interest, ROI);
  • статистические признаки второго порядка — на основе матрицы длин линий уровней серого (Gray Level Run Length Matrix, GRLRM) — 16 признаков; на основе матрицы разности соседних оттенков серого (Neighbouring Gray Tone Difference Matrix, NGTDM) — 5 признаков; на основе матрицы зависимости уровней серого (Gray Level Dependence Matrix, GLDM) — 14 признаков; на основе матрицы размеров областей уровней серого (Gray Level Size Zone Matrix, GLSZM) — 16 признаков.

Установили величину параметра binWidth = 5. Признаки вычисляли для исходных изображений КТ; после применения фильтра Лапласа–Гаусса для подчёркивания границ в области интереса, параметр фильтра — стандартное отклонение — установили 1, 3 и 5 мм; после вейвлет-преобразования для декомпозиции изображений КТ на компоненты различных пространственных частот (использовали вейвлет «coif1»). Все остальные параметры модуля PyRadiomics, регулирующие постобработку изображений и вычисление признаков оставили по умолчанию. Все параметры и описание текстурных признаков опубликованы разработчиками модуля PyRadiomics [25].

Подготовка данных

Оценка воспроизводимости и вариативности признаков, стандартизация данных

Для оценки воспроизводимости текстурных признаков подвыборку образований надпочечников (45 случаев) независимо разметили врачи-рентгенологи двух групп: с опытом работы ≥ 5 лет (n = 3) и < 5 лет (n = 3). Разметку объёмных образований надпочечников выполняли во всех фазах КТ с контрастным усилением в рамках исследования. Далее осуществляли вычисление текстурных признаков для выделенных областей интереса и сравнивали их значения в зависимости от категории разметчика. В роли метрики воспроизводимости признаков использовали коэффициент внутриклассовой корреляции (Intraclass Correlation Coefficient, ICC). В качестве критерия воспроизводимости приняли значение ICC > 0,9.

Для оценки вариативности текстурных показателей врач-рентгенолог с опытом работы в лучевой диагностике образований надпочечников > 5 лет разметил область интереса внутри области аорты в нативной фазе КТ для подвыборки из 30 пациентов. После этого вычислили для неё текстурные признаки. Для оценки вариабельности использовали коэффициент вариации (Coefficient of Variation, CV). Критерием низкой вариабельности считали значения CV < 0,15. Врач не имел доступ к клиническим данным пациентов и результатам интерпретации изображений КТ с контрастным усилением, а также к результату патоморфологического исследования.

В силу вариабельности параметров КТ-сканирования в выборке и известного факта их влияния на текстурные признаки [26], применяли метод стандартизации с использованием в качестве референсной структуры области внутри аорты. В предположении о том, что вариабельность признаков связана с дисперсией интенсивностей элементов текстуры в области интереса, масштабирование выполняли по следующей формуле:

Istandardized(x,y,z)=μimage+(I(x,y,z)-μimage)×σrefσaorta, (1)

где I (x, y, z) — исходное значение рентгеновской плотности в вокселе с координатами (x, y, z); μimage — средняя рентгеновская плотность в области интереса; σaorta — стандартное отклонение рентгеновской плотности в области аорты на изображении; σref — референсное стандартное отклонение плотности в области аорты, определяемое как среднее значение σaorta по всей выборке (20 HU).

Отбор признаков для модели машинного обучения

Перед обучением моделей проводили этап отбора признаков (Feature Selection) с исключением сильно коррелирующих признаков (> 0,9 согласно коэффициенту корреляции Спирмена). В парах таких признаков исключали тот, для которого характерно меньшее значение метрики MaxSD, определяемой согласно формуле:

MaxSD=max(μiμj)σpooled, (2)

где μi, μj — средние значения признака для разных диагнозов (АКР, аденомы, феохромоцитомы); σpooled — стандартное отклонение признака во всей выборке, включающей все диагнозы.

Модель машинного обучения

Модель машинного обучения разработана на основе градиентного бустинга над деревьями решений (модели XGBoost, LightGBM, CatBoost; модули lightgbm, xgboost и catboost в языке Python соответственно). В качестве предикторов исхода использовали текстурные признаки, извлечённые из изображений КТ с контрастным усилением. Модель градиентного бустинга предсказывает оценку вероятности принадлежности опухоли к классу образования надпочечников (АКР, аденома, феохромоцитома). Для преобразования непрерывной вероятности в категориальный выход модели установлена классификация в виде выбора класса с максимальным значением вероятности.

Гиперпараметры моделей

Для использования оптимального количества деревьев и минимизации вероятности переобучения в моделях использовали метод Early Stopping при обучении (количество итераций, при которых не происходит уменьшение значения функции потерь на валидационной выборке и цикл обучения останавливается, установили равным 20). Установили следующие значения гиперпараметров:

  • max_depth = 3 (максимальная глубина базового алгоритма решающего дерева);
  • learning_rate = 0,1 (отвечает за обновление параметров модели при обучении).

В качестве функции потерь использовали логистическую функцию потерь для случая многоклассовой классификации (категориальная кросс-энтропия).

Балансировка классов

Для минимизации дисбаланса классов по количеству наблюдений при обучении проводили взвешивание классов (присваивание каждому классу веса, обратно пропорционального количеству наблюдений класса).

Оценка модели

Качество модели оценивали с использованием метрик Recall (чувствительность), Precision, F1-score, макроусреднённая F1-score, специфичность, Balanced Accuracy и AUC для каждого класса. Значения всех метрик выше 0,80 рассматривали как критерий высокой диагностической точности модели. Их итоговые значения усредняли по всем 5 фолдам стратифицированной кросс-валидации для получения оценки обобщающей способности модели. Стандартное отклонение, вычисленное по результатам кросс-валидации, использовали для оценки вариабельности моделей. При этом приняли, что метрики Balanced Accuracy и макроусреднённая F1-score являются надёжными индикаторами диагностической эффективности в условиях дисбаланса классов [27, 28].

Оценка важности признаков моделей

Для оценки информативности текстурных признаков (то есть их вклада в прогностическую способность моделей) проведена оценка важности признаков с использованием встроенных методов каждого алгоритма. В связи с тем, что различные фреймворки градиентного бустинга реализуют различные метрики важности, для модели LightGBM важность признаков оценивали на основе метрики Gain при разделении данных. В модели XGBoost также использовали метрику Gain, отражающую среднее уменьшение функции потерь, достигнутое при использовании признака. Для классификатора CatBoost применяли метрику PredictionValuesChange.

Разделение выборки

Выборка разделена на обучающую и тестовую в соотношении 80:20 случайным образом со стратификацией с применением функции train_test_split модуля sklearn языка программирования Python. Итоговую модель перед вычислением метрик на тестовой выборке обучали на всей обучающей выборке.

Этическая экспертиза

Протокол исследования одобрен локальным этическим комитетом НМИЦ эндокринологии имени академика И.И. Дедова (протокол № 20 от 13.11.2024). Все пациенты при обращении за медицинской помощью подписывали информированное добровольное согласие на использование результатов обследования и лечения с научной целью.

Статистический анализ

Расчёт размера выборки. Необходимый размер выборки предварительно не рассчитывали.

Методы статистического анализа данных. Анализ данных проведён с использованием языка программирования Python 3.9.21. Данные по непрерывным переменным [возраст на момент проведения КТ с контрастным усилением, максимальный линейный размер образования надпочечников по данным КТ (мм), рентгеновская плотность по фазам КТ в единицах Хаунсфилда (HU)] представлены в виде Me [Q1; Q3], где Me — медиана, Q1 и Q3 — 1-й и 3-й квартили соответственно. Для сравнения значений категориальных признаков по различным диагнозам использовали критерий χ2, непрерывных переменных — тест Краскела–Уоллиса (с тестом Данна в качестве post-hoc теста) с поправкой Бонферрони на множественную проверку гипотез.

РЕЗУЛЬТАТЫ

Формирование выборки

Хирургическое лечение по поводу образований надпочечников в отделении хирургии НМИЦ эндокринологии имени академика И.И. Дедова в 2018–2024 гг. прошли 847 пациентов, все с результатами гистологического исследования. Дооперационная КТ с контрастным усилением в медицинской информационной системе была в 466 случаях, у 381 пациента отсутствовали её результаты со всеми четырьмя фазами. Не включены в исследование данные 30 пациентов с неопределённым результатом гистологического исследования и 11 — с артефактами движения и кольцевыми артефактами. В результате сформировали итоговую выборку из 425 пациентов, из них АКР был гистологически верифицирован у 42 пациентов, феохромоцитома — у 204, аденома — у 179. Для всех пациентов, включённых в исследование, получен полный набор запланированных данных.

Характеристика групп

Группы пациентов с образованиями надпочечников были сопоставимы по полу и возрасту (табл. 1). Различия групп отмечены по показателям максимального линейного размера (опухоли при АКР имели значительно бóльшие размеры по сравнению с феохромоцитомами и аденомами по результатам попарных сравнений), плотности в нативной фазе КТ (аденомы отличались меньшей плотностью, чем АКР и феохромоцитомы), плотности в артериальной, венозной и отсроченной фазах (феохромоцитомы демонстрируют наибольшие значения плотности в динамических фазах контрастирования, при этом значимых отличий между АКР и аденомами нет).

 

Таблица 1. Характеристика пациентов с образованиями надпочечников

Параметр

Адренокортикальный рак, n = 42

Феохромоцитома, n = 204

Аденома, n = 179

p

p, post-hoc

Мужской пол, n (%)

16 (37)

80 (38)

65 (35)

0,832

p12 = 1,000

p13 = 1,000

p23 = 1,000

Возраст, лет

48,0 [33, 4; 57, 7]

49,8 [39, 0; 59, 3]

49,0 [41, 0; 59, 2]

0,380

p12 = 0,189

p13 = 0,176

p23 = 0,936

Максимальный линейный размер, мм

78,0 [58, 0; 99, 5]

47,5 [34, 0; 62, 0]

30,0 [21, 0; 39, 0]

< 0,001

p12 < 0,001

p13 < 0,001

p23 < 0,001

Плотность в нативной фазе, HU

44,0 [41, 5; 47, 5]

48,0 [42, 5; 53, 0]

30,0 [17, 0; 40, 0]

< 0,001

p12 = 0,048

p13 < 0,001

p23 < 0,001

Плотность в артериальной фазе, HU

83,5 [62, 0; 127, 3]

126,0 [110, 0; 166, 0]

79,0 [57, 0; 102, 0]

< 0,001

p12 < 0,001

p13 = 0,070

p23 < 0,001

Плотность в венозной фазе, HU

101,0 [81, 0; 113, 5]

114,0 [97, 0; 137, 0]

100,0 [80, 8; 125, 3]

< 0,001

p12 = 0,003

p13 = 0,720

p23 < 0,001

Плотность в отсроченной фазе, HU

64,0 [59, 8; 72, 0]

71,5 [63, 0; 83, 3]

58,0 [43, 0; 75, 0]

< 0,001

p12 = 0,012

p13 = 0,144

p23 < 0,001

Примечание. Количественные переменные представлены в виде Me [Q1; Q3], где Me — медиана, Q1 и Q3 — 1-й и 3-й квартили соответственно. Для сравнения значений категориальных признаков по различным диагнозам использовали критерий χ2, непрерывных переменных — тест Краскела–Уоллиса (c тестом Данна в качестве post-hoc теста).

 

Основные результаты исследования

Оценка воспроизводимости и вариабельности текстурных признаков

После сегментации образований надпочечников двумя категориями врачей-рентгенологов и вычисления текстурных признаков определили ICC для различных фаз КТ. Доля признаков со значением ICC > 0,9 варьировала в диапазоне от 70 до 82% (табл. 2).

 

Таблица 2. Воспроизводимость оценок текстурных показателей

Фаза компьютерной томография

ICC > 0,9, n (%)

Нативная

892 (78,9)

Артериальная

907 (80,3)

Венозная

794 (70,3)

Отсроченная

930 (82,3)

Примечание. Общее количество анализируемых текстурных признаков 1130. ICC (Intraclass Correlation Coefficient) — коэффициент внутриклассовой корреляции.

 

После сегментации области внутри аорты и вычисления CV доля низковариативных признаков с CV < 0,15 составила 12,9% (146/1130). После применения стандартизации с использованием в качестве референсной структуры области внутри аорты значение CV < 0,15 определено для 313/1130 (27,7%) признаков. Для дальнейшего анализа мы использовали только низковариативные и воспроизводимые признаки после процедуры отбора в количестве 245.

Качество моделей на тестовых и валидационных данных

В тестовую выборку включено 85 случаев образований надпочечников, в обучающую — 340. Проводили обучение моделей XGBoost, CatBoost и LightGBM. Итоговые метрики качества на тестовых данных и по результатам кросс-валидации приведены в табл. 3. По метрикам Balanced Accuracy и макроусреднённой F1-score, в пределах оценки вариабельности (стандартное отклонение), модели характеризуются похожими значениями с пересечением значений метрик. При этом значения метрик Recall, Precision, F1-score для АКР заметно ниже по сравнению с аналогичными метриками для аденом и феохромоцитом. Однако на тестовой выборке значения метрик для всех трёх моделей идентичны (помимо небольшой разницы в значениях AUC).

 

Таблица 3. Метрики качества моделей по данным кросс-валидации и оценки на тестовой выборке

Метрики

Модель градиентного бустинга

LightGBM

XGBoost

CatBoost

Результаты кросс-валидации

Аденомы

Recall

0,866 ± 0,041

0,880 ± 0,029

0,859 ± 0,067

Precision

0,949 ± 0,044

0,958 ± 0,051

0,948 ± 0,045

F1-score

0,904 ± 0,026

0,916 ± 0,029

0,900 ± 0,042

Специфичность

0,964 ± 0,031

0,969 ± 0,038

0,964 ± 0,031

AUC

0,971 ± 0,015

0,967 ± 0,021

0,959 ± 0,021

Феохромоцитомы

Recall

0,884 ± 0,036

0,909 ± 0,066

0,817 ± 0,060

Precision

0,810 ± 0,018

0,810 ± 0,012

0,831 ± 0,043

F1-score

0,845 ± 0,022

0,855 ± 0,033

0,822 ± 0,033

Специфичность

0,806 ± 0,021

0,800 ± 0,018

0,840 ± 0,056

AUC

0,924 ± 0,022

0,920 ± 0,027

0,917 ± 0,023

Адренокортикальный рак

Recall

0,452 ± 0,169

0,362 ± 0,120

0,643 ± 0,136

Precision

0,503 ± 0,163

0,506 ± 0,119

0,450 ± 0,077

F1-score

0,464 ± 0,142

0,409 ± 0,099

0,521 ± 0,075

Специфичность

0,951 ± 0,021

0,961 ± 0,016

0,912 ± 0,030

AUC

0,878 ± 0,054

0,871 ± 0,052

0,879 ± 0,063

Агрегированные метрики качества

Balanced Accuracy

0,734 ± 0,046

0,717 ± 0,028

0,773 ± 0,040

Макроусреднённая F1-score

0,738 ± 0,046

0,727 ± 0,033

0,747 ± 0,038

Тестовый набор данных

Аденомы

Recall

0,861

0,861

0,861

Precision

0,912

0,912

0,912

F1-score

0,886

0,886

0,886

Специфичность

0,939

0,939

0,939

AUC

0,976

0,982

0,974

Феохромоцитомы

Recall

0,902

0,902

0,902

Precision

0,787

0,787

0,787

F1-score

0,841

0,841

0,841

Специфичность

0,773

0,773

0,773

AUC

0,946

0,950

0,947

Адренокортикальный рак

Recall

0,375

0,375

0,375

Precision

0,750

0,750

0,750

F1-score

0,500

0,500

0,500

Специфичность

0,987

0,987

0,987

AUC

0,940

0,953

0,930

Агрегированные метрики качества

Balanced Accuracy

0,713

0,713

0,713

Макроусреднённая F1-score

0,742

0,742

0,742

Примечание. AUC (Area Under the Curve) — площадь под кривой. Значения метрик, полученные в результате кросс-валидации, представлены в виде M ± SD, где MD — среднее значение, SD — стандартное отклонение.

 

Наиболее информативные для решения задачи классификации текстурные признаки [первые пять признаков по величине их важности (Feature Importance)] для каждой модели вместе с их краткой интерпретацией приведены в табл. 4. Наиболее важным для решения задачи классификации текстурным признаком является wavelet-LLL_firstorder_Mean_NAT, отражающий среднее значение рентгеновской плотности в области опухоли на изображении КТ в нативной фазе. Распределение средних значений этих признаков для разных классов (диагнозов) представлено на рис. 1. Распределение наблюдений в соответствии с предсказываемым классом показало, что для моделей характерна низкая способность дифференцировать АКР и феохромоцитом (рис. 2).

 

Таблица 4. Наиболее важные признаки и их интерпретация

Признак

Важность признака, условные единицы

Краткая интерпретация признака

LightGBM

Wavelet-LLL_firstorder_Mean_NAT

71

Отражает среднюю рентгеновскую плотность в области интереса после удаления высокочастотного шума и сохранения глобальных (низкочастотных) изменений структуры на изображении нативной фазы компьютерной томографии

Log-sigma-3-0-mm-3D_glcm_MCC_ART

37

MCC (Maximum Correlation Coefficient) описывает линейную зависимость элементов текстуры изображения после применения фильтра Лапласа–Гаусса на уровне детализации ~3 мм в артериальной фазе компьютерной томографии, высокий MCC на LoG-изображении описывает сложные, нерегулярные, инвазивные границы опухоли, которые визуально часто выглядят менее чёткими (размытыми, изрезанными) из-за своей сложной структуры. Низкий MCC связан с гладкими, чётко очерченными границами

Original_shape_Maximum2DDiameterRow_VEN

29

Максимальный диаметр опухоли в аксиальной плоскости в венозной фазе компьютерной томографии

Wavelet-LLL_firstorder_90Percentile_DEL

23

90-й перцентиль значений рентгеновской плотности в области интереса после удаления высокочастотного шума и сохранения глобальных (низкочастотных) изменений структуры в отсроченной фазе

Wavelet-LLL_firstorder_Mean_ART

21

Отражает среднюю рентгеновскую плотность в области интереса после удаления высокочастотного шума и сохранения глобальных (низкочастотных) изменений структуры на изображении артериальной фазы компьютерной томографии

XGBoost

Original_glrlm_ShortRunEmphasis_VEN

14

Отражает преобладание коротких линий одинаковых интенсивностей в области интереса, большее значение признака указывает на мелкозернистую и мелкофрагментированную текстуру

Wavelet-LLL_firstorder_Mean_NAT

13

См. интерпретацию выше (в блоке модели LightGBM)

Log-sigma-1-0-mm-3D_firstorder_10Percentile_VEN

11

10-й перцентиль для области интереса после применения фильтра Лапласа–Гаусса, чувствителен к более равномерному распределению границ с преобладанием слабых изменений плотности, большее значение свидетельствует о выраженных границах

Original_shape_Maximum2DDiameterRow_VEN

11

См. интерпретацию выше (в блоке модели LightGBM)

Wavelet-LLL_firstorder_Mean_ART

9

См. интерпретацию выше (в блоке модели LightGBM)

CatBoost

Wavelet-LLL_firstorder_Mean_NAT

14

См. интерпретацию выше (в блоке модели LightGBM)

Wavelet-LLL_firstorder_Mean_DEL

14

Отражает среднюю рентгеновскую плотность в области интереса после удаления высокочастотного шума и сохранения глобальных (низкочастотных) изменений структуры на изображении отсроченной фазы компьютерной томографии

Original_shape_Maximum2DDiameterRow_VEN

8

См. интерпретацию выше (в блоке модели LightGBM)

Wavelet-LLL_firstorder_Mean_ART

4

См. интерпретацию выше (в блоке модели LightGBM)

Original_firstorder_90Percentile_NAT

3

90-й перцентиль значений рентгеновской плотности в нативной фазе

 

Рис. 1. Тепловая карта значений текстурных признаков для разных образований надпочечников. Приведены стандартизованное среднее значение (равное отношению разности среднего значения определённого диагноза и среднего значения всей выборки на стандартное отклонение всей выборки) и исходное среднее значение (в скобках) соответствующего показателя текстурного признака. АКР — адренокортикальный рак.

 

Рис. 2. Точность классификации наблюдений тестовой выборки (для всех трёх рассматриваемых моделей): 0 — аденомы; 1 — феохромоцитомы; 2 — адренокортикальный рак.

 

ОБСУЖДЕНИЕ

Резюме результатов исследования

Разработанные модели машинного обучения на основе текстурных признаков изображений КТ с контрастным усилением характеризуются схожими метриками качества и продемонстрировали высокую эффективность классификации феохромоцитом и аденом, но не АКР. Влияние различий параметров КТ-сканирования было минимизировано путём стандартизации данных с использованием в качестве референсной структуры области внутри аорты.

Обсуждение результатов исследования

Полученные результаты демонстрируют, что предложенные модели градиентного бустинга на основе текстурных признаков изображений КТ обеспечивает высокую диагностическую эффективность для предсказания наличия феохромоцитом и аденом, что соответствует результатам ранее опубликованных исследований, ориентированных на бинарную классификацию этих заболеваний. Например, метаанализ H. Zhang и соавт. [16] показал среднее значение AUC = 0,880 среди исследований для дифференциации доброкачественных и злокачественных опухолей надпочечников с применением текстурных признаков, а в работе L. Cao и соавт. [18] достигнута AUC = 0,938 при разграничении метастазов и доброкачественных образований.

Однако, в отличие от этих работ, наша модель ориентирована на мультиклассовую классификацию трёх групп опухолей (АКР, феохромоцитомы и аденомы), что является более сложной задачей. Согласно результатам нашего исследования, отмечена неспособность моделей правильно классифицировать АКР. Это может быть связано с определёнными факторами, а именно:

  • гетерогенностью АКР — известно, что он обладает высокой структурной и функциональной неоднородностью [29], что затрудняет его идентификацию на основе текстурных признаков;
  • ограниченной выборкой — в нашем исследовании АКР представлен 42 случаями, что значительно меньше, чем количество феохромоцитом и аденом;
  • дисбалансом классов, влияющем на точность классификации;
  • перекрытием текстурных характеристик — часть текстурных признаков АКР схожа с феохромоцитомами, что может приводить к ошибочной классификации.

Сравнение с крупным многоцентровым исследованием [20], в котором использовали нейросетевую модель с применением текстурных признаков изображений КТ, выявляет ключевые различия. В указанной работе для классификации злокачественных образований (объединённых в одну группу: АКР, феохромоцитомы, метастазы) достигнута высокая точность (AUC = 0,974, F1-score = 0,801). Более того, точность классификации АКР в этом исследовании (AUС = 0,973) значительно превосходит наши результаты. Это расхождение может быть связано с тем, что применение нейросетевой модели в исследовании L. Tucci и соавт. [20] могло обеспечить лучшее выявление сложных текстурных паттернов АКР. В настоящем исследовании мы использовали модели градиентного бустинга, которые потенциально уступают нейросетевым алгоритмам при обработке больших данных. Нейронные сети способны аппроксимировать любую непрерывную функцию, выделяя сложные поверхности в пространстве признаков, в то время как градиентный бустинг, опираясь на кусочно-постоянные деревья и пошаговое обучение, имеет ограниченную способность к аппроксимации сложных зависимостей [30, 31]. Вместе с тем, в отличие от нейросетевых, модели градиентного бустинга требуют меньшего количества обучающих данных, обеспечивают прямую количественную оценку информативности признаков и демонстрируют устойчивость к переобучению [32]. Кроме того, L. Tucci и соавт. [20] отметили, что добавление данных о гормональной секреции опухоли (добавление в модель категориальной переменной с возможными значениями: не секретирует гормоны; умеренная автономная секреция кортизола; синдром Кушинга; катехоламин-продуцирующая опухоль) существенно повысило точность классификации (AUC = 0,999), что подтверждает значимость интеграции клинических данных с текстурными характеристиками. В нашем исследовании такую информацию мы не использовали, что также могло повлиять на точность классификации.

Особое внимание следует уделить текстурным признакам, продемонстрировавшим наибольшую информативность для нашей задачи. Ведущим среди них был признак wavelet-LLL_firstorder_Mean_NAT, отражающий среднюю рентгеновскую плотность после удаления высокочастотной пространственной компоненты и сохранения глобальных (низкочастотных) изменений структуры. Для АКР и феохромоцитом характерно в среднем высокое значение этого признака по сравнению с аденомами, что связано с известным фактом меньшей рентгеновской плотности аденом в нативной фазе [33]. Этим же фактом объясняется и меньшее значение признака original_firstorder_90Percentile_NAT для аденом по сравнению с АКР и феохромоцитомами. Также для АКР характерен в среднем наибольший размер образований (признак original_shape_Maximum2DDiameterSlice_VEN), что согласуется с результатом исследования M. Robertson-Tessi и соавт. [34]. Кроме того, для АКР в среднем выше значения признаков log-sigma-3-0-mm-3D_glcm_MCC_ART и log-sigma-1-0-mm-3D_firstorder_10Percentile_VEN, что свидетельствует о гетерогенности его структуры по сравнению с феохромоцитомами и аденомами. Следует отметить, что важным в нашем исследовании оказался также признак original_glrlm_ShortRunEmphasis_VEN, для АКР характерно в среднем меньшее его значение, чем для аденом и феохромоцитом, что указывает на более выраженную крупномасштабную гетерогенность (вероятно, области некроза, кальцинаты) АКР, описанную ранее [34]. При этом значения признаков wavelet-LLL_firstorder_90Percentile_DEL, wavelet-LLL_firstorder_Mean_ART и wavelet-LLL_firstorder_Mean_DEL для АКР ниже, чем для феохромоцитом, а для аденом наименьшие среди всех изученных классов, что свидетельствует в первую очередь о большем значении рентгеновской плотности в артериальной и отсроченной фазе для феохромоцитом по сравнению с АКР и более быстрому вымыванию контраста аденомами [35]. Большее значение рентгеновской плотности в артериальной фазе для феохромоцитом по сравнению с АКР отмечено также в исследовании A. Phadte и соавт. [36], что согласуется с нашими результатами. Аденомы в нашей выборке демонстрируют в целом более однородную текстуру. В исследовании C. Altay и соавт. [37] аденомы характеризуются меньшей длиной серий ярких вокселей, что свидетельствует об их более однородной структуре по сравнению со злокачественными опухолями. Эти результаты позволяют сделать вывод, что ключевыми текстурными характеристиками для дифференциации типов опухолей являются признаки, отражающие общую яркость, однородность и локальные вариации интенсивности.

В настоящем исследовании выявлена систематическая ошибка классификации, при которой модели чаще ошибочно относили случаи АКР к феохромоцитомам, но не наоборот, что, вероятно, обусловлено несколькими взаимосвязанными факторами. Во-первых, ключевую роль играет дисбаланс классов в обучающей выборке. АКР является орфанным заболеванием, поэтому количество его наблюдений в выборке существенно меньше, чем аденом и феохромоцитом. В такой ситуации становится проблематичным надёжное выявление специфичных для АКР признаков, в то время как паттерны, характерные для более многочисленной группы феохромоцитом, определяются моделями лучше. В результате модели «склоняются» к более частому, «безопасному» с точки зрения их внутренней оптимизации, предсказанию в сторону феохромоцитом при анализе сомнительных случаев. Во-вторых, анализ наиболее информативных признаков показывает, что для классификации наиболее важны такие параметры, как средняя рентгеновская плотность (wavelet-LLL_firstorder_Mean) и максимальный диаметр опухоли. Известно, что и АКР, и феохромоцитомы часто представляют крупные, неоднородные по своей текстуре образования с участками некроза и кровоизлияний, что может приводить к значительному сходству их семиотики по данным КТ [14]. Таким образом, эти два класса оказываются близки в многомерном пространстве текстурных признаков. Факт того, что обратная ошибка происходит реже, можно объяснить тем, что феохромоцитомы, будучи более представленным классом, формируют в пространстве признаков более компактный и хорошо определённый кластер. Модель увереннее идентифицирует их «типичных» представителей. В то же время АКР, в силу своей редкости и большего морфологического разнообразия, представляет более «размытый» класс.

Кроме того, в исследовании проведена сравнительная оценка эффективности трёх моделей градиентного бустинга — LightGBM, XGBoost и CatBoost — в отношении классификации образований надпочечников на основе текстурных признаков изображений КТ. Ключевым является то, что на тестовой выборке все три модели продемонстрировали идентичные результаты. Это подтверждает, что в условиях этого набора данных модели обладают сопоставимой обобщающей способностью и демонстрируют стабильную работу. Также анализ результатов кросс-валидации, который позволяет оценить вариабельность моделей, выявил, что метрики качества для всех моделей характеризовались пересечением в пределах стандартного отклонения. Это не позволяет сделать однозначного вывода о статистически значимом превосходстве какой-либо модели градиентного бустинга. Результаты исследований по сравнению данных трёх моделей, представленные в литературе, также являются неоднозначными и показывают, что не существует универсально лучшей реализации градиентного бустинга: LightGBM обеспечивает оптимальный баланс между точностью и вычислительной эффективностью после настройки; CatBoost превосходит аналоги при работе с категориальными признаками и отличается стабильностью; XGBoost остаётся надёжной и гибко настраиваемой базовой моделью, а различия между результатами, вероятно, связаны с особенностями используемых данных, методами оценки и стратегиями оптимизации [38].

Важным направлением для повышения диагностической точности может стать более узкая постановка задачи классификации, в частности фокус на дифференциации феохромоцитом и АКР, схожих по рентгенологическим признакам образований. Предварительная фильтрация и анализ только солидных компонентов опухоли с исключением зон некроза и кистозных включений может позволить повысить информативность текстурных признаков за счёт уменьшения влияния таких гетерогенностей на значения радиомических показателей. Такой подход потенциально может усилить способность моделей к распознаванию устойчивых текстурных паттернов, характерных для феохромоцитом и аденом, что, в свою очередь, может улучшить их чувствительность и специфичность. Вместе с тем данный подход требует дополнительного исследования.

Ограничения исследования

Одним из ограничений настоящего исследования является относительно небольшое количество случаев АКР (n = 42), что может снижать устойчивость и воспроизводимость построенных моделей, повышая риск их переобучения при анализе этой группы. Несмотря на то, что представленное соотношение классов (диагнозов) отражает реальную распространённость различных опухолей надпочечников в нашей выборке (прооперированные пациенты с верифицированным морфологическим диагнозом), оно приводит к выраженному дисбалансу данных, что важно учитывать при построении и оценке моделей машинного обучения. В частности, при обучении моделей классификации мы применяли взвешивание классов, при котором каждому классу присваивали вес, обратно пропорциональный его частоте, с целью минимизировать смещение модели в сторону преобладающих классов и повысить чувствительность к реже встречающимся опухолям, таким как АКР.

Использование только текстурных признаков без учёта клинических данных (например, уровня гормональной активности) могло ограничить возможности моделей в сложных случаях [20]. Также результаты исследования требуют валидации на независимых когортах пациентов для подтверждения их воспроизводимости и клинической применимости.

Следует отметить, что референсным тестом в настоящей работе являлось патоморфологическое исследование, используемое в качестве «золотого стандарта» в диагностических исследованиях [2]. Данный метод обладает высокой чувствительностью и специфичностью в установлении окончательного диагноза [39]. Тем не менее и патоморфологическая диагностика может быть сопряжена с определёнными ограничениями — к ним относят субъективность интерпретации гистологических критериев (например, при использовании шкалы Weiss), а также сложности в диагностике редких опухолей [40]. Данный фактор мог повлиять на результаты оценки диагностической точности моделей машинного обучения и её обобщаемости. Это влияние проявляется в наличии межнаблюдательной вариабельности среди патоморфологов, что создаёт «зашумлённость» эталонных данных, на которых обучают и валидируют модель, что может приводить к некорректной оценке её метрик.

Значение для практики

Полученные в настоящем исследовании результаты подчёркивают потенциал разработанных моделей машинного обучения на основе текстурных признаков данных КТ с контрастным усилением как вспомогательного инструмента в клинической практике для предварительной дифференциальной диагностики образований надпочечников. Высокие значения метрик эффективности классификации аденом и феохромоцитом указывают на хорошую дискриминативную способность подхода при разграничении доброкачественных образований от потенциально злокачественных, что особенно важно на этапах первичной визуализации и принятия решений о необходимости хирургического вмешательства. Особенно ценным является потенциал модели для исключения аденом, часто не требующих инвазивного лечения, из числа подозрительных на злокачественные образования. Однако способность моделей различать АКР и феохромоцитомы была относительно низкой, что ограничивает их применение в задачах точной нозологической верификации между этими двумя типами опухолей. Тем не менее, даже при существующих ограничениях, предложенные модели могут быть использованы как часть комплексного диагностического алгоритма наряду с клинико-лабораторными и гормональными данными для повышения обоснованности клинических решений.

ЗАКЛЮЧЕНИЕ

Применение методов машинного обучения и радиомики для многоклассовой классификации образований надпочечников по данным КТ с контрастным усилением обеспечивает высокую точность дифференциации феохромоцитом и аденом, при этом классификация АКР осложнена его гетерогенностью и ограниченным размером выборки. Использование в исследовании стандартизации данных позволило снизить влияние параметров КТ-сканирования на вариативность текстурных признаков. Полученные результаты, сопоставимые с ранее опубликованными данными, подтверждают потенциал радиомики в улучшении дифференциальной диагностики опухолей надпочечников и указывают на необходимость дальнейших исследований на более обширных выборках.

ДОПОЛНИТЕЛЬНАЯ ИНФОРМАЦИЯ

Вклад авторов. А.В. Манаев — определение концепции, работа с данными, анализ данных, статистическая обработка данных, подготовка графических материалов, разработка методологии, написание черновика рукописи, пересмотр и редактирование текста рукописи; Н.В. Тарбаева — определение концепции, администрирование проекта, написание черновика рукописи; С.А. Бурякина, Л.Д. Ковалевич, А.В. Хайриева, Л.С. Урусова, Н.В. Пачуашвили — работа с данными, проведение исследования, обеспечение исследования, пересмотр и редактирование текста рукописи; Г.А. Мельниченко, Н.Г. Мокрышева, В.Е. Синицын — администрирование проекта, руководство исследованием, пересмотр и редактирование текста рукописи. Все авторы одобрили рукопись (версию для публикации), а также согласились нести ответственность за все аспекты работы, гарантируя надлежащее рассмотрение и решение вопросов, связанных с точностью и добросовестностью любой её части.

Этическая экспертиза. Протокол исследования одобрен локальным этическим комитетом Национального медицинского исследовательского центра эндокринологии имени академика И.И. Дедова (протокол № 20 от 13.11.2024). Все пациенты при обращении за медицинской помощью подписывали информированное добровольное согласие на использование результатов обследования и лечения с научной целью.

Источники финансирования. Отсутствуют.

Раскрытие интересов. Авторы заявляют об отсутствии отношений, деятельности и интересов за последние три года, связанных с третьими лицами (коммерческими и некоммерческими), интересы которых могут быть затронуты содержанием статьи.

Оригинальность. При создании настоящей работы применены собственные данные 24 пациентов с адренокортикальным раком, использованные при создании ранее опубликованной работы (doi: 10.17816/DD643532; публикуется с разрешения правообладателя).

Доступ к данным. Редакционная политика в отношении совместного использования данных к настоящей работе не применима.

Генеративный искусственный интеллект. При создании настоящей статьи технологии генеративного искусственного интеллекта не использовали.

Рассмотрение и рецензирование. Настоящая работа подана в журнал в инициативном порядке и рассмотрена по обычной процедуре. В рецензировании участвовали два внешних рецензента и научный редактор журнала.

ADDITIONAL INFORMATION

Author contributions: A.V. Manaev: conceptualization, data curation, formal analysis, visualization, methodology, writing — original draft, writing — review & editing; N.V. Tarbaeva: conceptualization, project administration, writing — original draft; S.A. Buryakina, L.D. Kovalevich, A.V. Khairieva, L.S. Urusova, N.V. Pachuashvili: data curation, investigation, resources, writing — review & editing; G.A. Melnichenko, N.G. Mokrysheva, V.E. Sinitsyn: project administration, supervision, writing — review & editing. All the authors approved the version of the manuscript to be published and agreed to be accountable for all aspects of the work, ensuring that questions related to the accuracy or integrity of any part of the work are appropriately investigated and resolved.

Ethics approval: The study protocol was approved by the Local Ethics Committee of the I. I. Dedov National Medical Research Center for Endocrinology (Minutes No. 20, dated November 13, 2024). All participants provided written informed consent for the use of their clinical assessment and treatment data for research purposes.

Funding sources: No funding.

Disclosure of interests: The authors have no relationships, activities, or interests for the last three years related to for-profit or not-for-profit third parties whose interests may be affected by the content of the article.

Statement of originality: Original data from 24 patients with adrenocortical carcinoma were used in this study; these data had previously been used in an earlier published work (doi: 10.17816/DD643532) and are reproduced with permission of the copyright holder.

Data availability statement: The editorial policy regarding data sharing does not apply to this work.

Generative AI: No generative artificial intelligence technologies were used to prepare this article.

Provenance and peer-review: This article was submitted unsolicited and reviewed following the standard procedure. The peer-review process involved two external reviewers and the in-house science editor.

×

About the authors

Almaz V. Manaev

Endocrinology Research Centre; National Research Nuclear University “MEPhI”

Email: a.manaew2016@yandex.ru
ORCID iD: 0009-0003-8035-676X
SPIN-code: 2902-9767
Russian Federation, Moscow; Moscow

Natalia V. Tarbaeva

Endocrinology Research Centre

Email: ntarbaeva@inbox.ru
ORCID iD: 0000-0001-7965-9454
SPIN-code: 5808-8065

MD, Cand. Sci. (Medicine)

Russian Federation, Moscow

Svetlana A. Buryakina

Endocrinology Research Centre

Email: sburyakina@yandex.ru
ORCID iD: 0000-0001-9065-7791
SPIN-code: 5675-0651

MD, Cand. Sci. (Medicine)

Russian Federation, Moscow

Liliya D. Kovalevich

Endocrinology Research Centre

Email: liliyakovalevich@gmail.com
ORCID iD: 0000-0001-8958-8223
SPIN-code: 1642-5694
Russian Federation, Moscow

Angelina V. Khairieva

Endocrinology Research Centre

Email: komarito@mail.ru
ORCID iD: 0000-0002-6758-5918
SPIN-code: 4516-8297
Russian Federation, Moscow

Liliya S. Urusova

Endocrinology Research Centre

Email: liselivanova89@yandex.ru
ORCID iD: 0000-0001-6891-0009
SPIN-code: 5151-3675

MD, Dr. Sci. (Medicine)

Russian Federation, Moscow

Nano V. Pachuashvili

Endocrinology Research Centre

Email: npachuashvili@bk.ru
ORCID iD: 0000-0002-8136-0117
SPIN-code: 3477-8994

MD, Cand. Sci. (Medicine)

Russian Federation, Moscow

Galina A. Mel'nichenko

Endocrinology Research Centre

Author for correspondence.
Email: Melnichenko.Galina@endocrincentr.ru
ORCID iD: 0000-0002-5634-7877
SPIN-code: 8615-0038

MD, Dr. Sci. (Medicine), Professor

Russian Federation, Moscow

Natalia G. Mokrysheva

Endocrinology Research Centre

Email: mokrisheva.natalia@endocrincentr.ru
ORCID iD: 0000-0002-9717-9742
SPIN-code: 5624-3875

MD, Dr. Sci. (Medicine), Professor

Russian Federation, Moscow

Valentin E. Sinitsyn

Lomonosov Moscow State University; Research and Practical Clinical Center for Diagnostics and Telemedicine Technologies

Email: vsini@mail.ru
ORCID iD: 0000-0002-5649-2193
SPIN-code: 8449-6590

MD, Dr. Sci. (Medicine), Professor

Russian Federation, Moscow; Moscow

References

  1. Albano D, Agnello F, Midiri F, et al. Imaging features of adrenal masses. Insights into Imaging. 2019;10(1):1–16. doi: 10.1186/s13244-019-0688-8 EDN: ETVIBX
  2. Fassnacht M, Tsagarakis S, Terzolo M, et al. European Society of Endocrinology clinical practice guidelines on the management of adrenal incidentalomas, in collaboration with the European Network for the Study of Adrenal Tumors. European Journal of Endocrinology. 2023;189(1):G1–G42. doi: 10.1093/ejendo/lvad066 EDN: EZKFAO
  3. Ebbehoj A, Li D, Kaur RJ, et al. Epidemiology of adrenal tumours in Olmsted County, Minnesota, USA: a population-based cohort study. The Lancet Diabetes & Endocrinology. 2020;8(11):894–902. doi: 10.1016/s2213-8587(20)30314-4 EDN: ICZBID
  4. Bancos I, Taylor AE, Chortis V, et al. Urine steroid metabolomics for the differential diagnosis of adrenal incidentalomas in the EURINE-ACT study: a prospective test validation study. The Lancet Diabetes & Endocrinology. 2020;8(9):773–781. doi: 10.1016/S2213-8587(20)30218-7 EDN: ZXDDAR
  5. Hong AR, Kim JH, Park KS, et al. Optimal follow-up strategies for adrenal incidentalomas: reappraisal of the 2016 ESE-ENSAT guidelines in real clinical practice. European Journal of Endocrinology. 2017;177(6):475–483. doi: 10.1530/EJE-17-0372
  6. Schloetelburg W, Ebert I, Petritsch B, et al. Adrenal wash-out CT: moderate diagnostic value in distinguishing benign from malignant adrenal masses. European Journal of Endocrinology. 2022;186(2):183–193. doi: 10.1530/EJE-21-0650
  7. Marty M, Gaye D, Perez P, et al. Diagnostic accuracy of computed tomography to identify adenomas among adrenal incidentalomas in an endocrinological population. European Journal of Endocrinology. 2018;178(5):439–446. doi: 10.1530/EJE-17-1056
  8. Vilar L, Freitas M, Canadas V, et al. Adrenal Incidentalomas: Diagnostic Evaluation and Long-Term Follow-up. Endocrine Practice. 2008;14(3):269–278. doi: 10.4158/EP.14.3.269
  9. Winoker JS, Ahlborn DT, Omidele OO, et al. Minimally invasive adrenal surgery: virtue or vice. Future Oncology. 2018;14(3):267–276. doi: 10.2217/fon-2017-0420
  10. Elhassan YS, Alahdab F, Prete A, et al. Natural history of adrenal incidentalomas with and without mild autonomous cortisol excess. Annals of Internal Medicine. 2019;171(2):107–116. doi: 10.7326/M18-3630
  11. Collienne M, Timmesfeld N, Bergmann S, et al. Adrenal incidentaloma and subclinical Cushing’s syndrome: a longitudinal follow-up study by endoscopic ultrasound. Ultraschall in der Medizin - European Journal of Ultrasound. 2015;38(04):411–419. doi: 10.1055/s-0041-107996 EDN: YCAZGU
  12. Corwin MT, Chalfant JS, Loehfelm TW, et al. Incidentally detected bilateral adrenal nodules in patients without cancer: is further workup necessary? American Journal of Roentgenology. 2018;210(4):780–784. doi: 10.2214/AJR.17.18543
  13. Goh Z, Phillips I, Hunt PJ, et al. Three-year follow up of adrenal incidentalomas in a New Zealand centre. Internal Medicine Journal. 2020;50(3):350–356. doi: 10.1111/imj.14332 EDN: ULXDXA
  14. Leung K, Stamm M, Raja A, Low G. Pheochromocytoma: the range of appearances on ultrasound, CT, MRI, and functional imaging. American Journal of Roentgenology. 2013;200(2):370–378. doi: 10.2214/AJR.12.9126
  15. Eloyan A, Yue MS, Khachatryan D. Tumor heterogeneity estimation for radiomics in cancer. Statistics in Medicine. 2020;39(30):4704–4723. doi: 10.1002/sim.8749 EDN: HJELUM
  16. Zhang H, Lei H, Pang J. Diagnostic performance of radiomics in adrenal masses: a systematic review and meta-analysis. Frontiers in Oncology. 2022;12:975183. doi: 10.3389/fonc.2022.975183 EDN: OJYRFN
  17. Ferro M, Tataru OS, Carrieri G, et al. Artificial intelligence and radiomics applications in adrenal lesions: a systematic review. Therapeutic Advances in Urology. 2025;17. doi: 10.1177/17562872251352553
  18. Cao L, Yang H, Wu H, et al. Adrenal indeterminate nodules: CT-based radiomics analysis of different machine learning models for predicting adrenal metastases in lung cancer patients. Frontiers in Oncology. 2024;14. doi: 10.3389/fonc.2024.1411214 EDN: YPYTOT
  19. Qi S, Zuo Y, Chang R, et al. Using CT radiomic features based on machine learning models to subtype adrenal adenoma. BMC Cancer. 2023;23(1):1411214. doi: 10.1186/s12885-023-10562-6 EDN: TAHRXY
  20. Tucci L, Vara G, Morelli V, et al. Prediction of adrenal masses nature through texture analysis and deep learning: Preliminary results from ENS@T RADIO-AI multicentric study. In: Endocrine Abstracts. Harrogate: Society for Endocrinology; 2024. doi: 10.1530/endoabs.99.oc11.3 EDN: SYRWPF
  21. Weiss LM. Comparative histologic study of 43 metastasizing and nonmetastasizing adrenocortical tumors. The American Journal of Surgical Pathology. 1984;8(3):163–170. doi: 10.1097/00000478-198403000-00001
  22. Bisceglia M, Ludovico O, Di Mattia A, et al. Adrenocortical oncocytic tumors: report of 10 cases and review of the literature. International Journal of Surgical Pathology. 2004;12(3):231–243. doi: 10.1177/106689690401200304
  23. Thompson LDR. Pheochromocytoma of the adrenal gland scaled score (PASS) to separate benign from malignant neoplasms. The American Journal of Surgical Pathology. 2002;26(5):551–566. doi: 10.1097/00000478-200205000-00002
  24. Urusova LS, Kletskaya IS, Porubayeva EE, Beltsevich DG. Adrenocortical carcinoma: modern concepts of morphological diagnosis and classification. Russian Journal of Archive of Pathology. 2023;85(4):32–38. doi: 10.17116/patol20238504132 EDN: XEDMRQ
  25. van Griethuysen JJM, Fedorov A, Parmar C, et al. Computational radiomics system to decode the radiographic phenotype. Cancer Research. 2017;77(21):e104–e107. doi: 10.1158/0008-5472.CAN-17-0339
  26. Varghese BA, Cen SY, Jensen K, et al. Investigating the role of imaging factors in the variability of CT-based texture analysis metrics. Journal of Applied Clinical Medical Physics. 2023;25(4):e14192. doi: 10.1002/acm2.14192
  27. Brodersen KH, Ong CS, Stephan KE, Buhmann JM. The balanced accuracy and its posterior distribution. In: Proceedings of the 20th International Conference on Pattern Recognition. Istanbul; 2010. P. 3121–3124. doi: 10.1109/ICPR.2010.764
  28. Saito T, Rehmsmeier M. The Precision-Recall Plot Is More Informative than the ROC plot when evaluating binary classifiers on imbalanced datasets. PLOS ONE. 2015;10(3):e0118432. doi: 10.1371/journal.pone.0118432 EDN: YBEDRE
  29. Fassnacht M, Dekkers OM, Else T, et al. European Society of Endocrinology Clinical Practice Guidelines on the management of adrenocortical carcinoma in adults, in collaboration with the European Network for the Study of Adrenal Tumors. European Journal of Endocrinology. 2018;179(4):G1–G46. doi: 10.1530/EJE-18-0608
  30. Sonoda S, Murata N. Neural network with unbounded activation functions is universal approximator. Applied and Computational Harmonic Analysis. 2017;43(2):233–268. doi: 10.1016/j.acha.2015.12.005
  31. Chen T, Guestrin C. XGBoost: a scalable tree boosting system. In: Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. San Francisco; 2016. P. 785–794. doi: 10.1145/2939672.2939785
  32. Grinsztajn L, Oyallon E, Varoquaux G. Why do tree-based models still outperform deep learning on typical tabular data? In: Proceedings of 36th Conference on Neural Information Processing Systems (NeurIPS 2022) Track on Datasets and Benchmarks. 2022. Available from: https://papers.neurips.cc/paper_files/paper/2022/
  33. Walz MK, Metz KA, Theurer S, et al. Differentiating benign from malignant adrenocortical tumors by a single morphological parameter—a clinicopathological study on 837 adrenocortical neoplasias. Indian Journal of Surgical Oncology. 2020;11(4):705–710. doi: 10.1007/s13193-020-01205-4 EDN: OBEYXF
  34. Robertson-Tessi M, Gillies RJ, Gatenby RA, Anderson ARA. Impact of metabolic heterogeneity on tumor growth, invasion, and treatment outcomes. Cancer Research. 2015;75(8):1567–1579. doi: 10.1158/0008-5472.CAN-14-1428
  35. Kotelnikova LP, Zhizhilev YV. Computed tomography in the differential diagnosis of adrenal tumors. Endocrine Surgery. 2022;15(4):38–43. doi: 10.14341/serg12761 EDN: NPFHOR
  36. Phadte A, Krishnappa B, Memon SS, et al. High diagnostic accuracy of arterial phase CT in differentiating pheochromocytoma in good/poor washout adrenal masses. Journal of the Endocrine Society. 2024;9(1):bvae199. doi: 10.1210/jendso/bvae199
  37. Altay C, Basara Akin I, Ozgul AH, et al. Machine learning analysis of adrenal lesions: Preliminary study evaluating texture analysis in the differentiation of adrenal lesions. Diagnostic and Interventional Radiology. 2023;29(2):234–243. doi: 10.5152/dir.2022.21266 EDN: TEUYQK
  38. Florek P, Zagdański A. Benchmarking state-of-the-art gradient boosting algorithms for classification. arXiv. 2023. (in press). doi: 10.48550/arXiv.2305.17094
  39. Lau SK, Weiss LM. The Weiss system for evaluating adrenocortical neoplasms: 25 years later. Human Pathology. 2009;40(6):757–768. doi: 10.1016/j.humpath.2009.03.010
  40. Lam AK. Update on adrenal tumours in 2017 World Health Organization (WHO) of endocrine tumours. Endocrine Pathology. 2017;28(3):213–227. doi: 10.1007/s12022-017-9484-5 EDN: DZHAOK
  41. Manaev AV, Tarbaeva NV, Roslyakova AA, et al. Predicting high proliferative Ki-67 index in patients with adrenocortical carcinoma based on texture analysis of contrast-enhanced computed tomography images: a cross-sectional study. Digital Diagnostics. 2025;6(3):360–372. doi: 10.17816/DD643532 EDN: JRXXMQ

Supplementary files

Supplementary Files
Action
1. JATS XML
2. Fig. 1. Heat map of texture feature values for different adrenal gland formations. The standardised mean value (equal to the ratio of the difference between the mean value of a specific diagnosis and the mean value of the entire sample to the standard deviation of the entire sample) and the initial mean value (in brackets) of the corresponding texture feature indicator are given. ACC — adrenocortical carcinoma.

Download (315KB)
3. Fig. 2. Classification accuracy of test sample observations (for all three models considered): 0 — adenomas; 1 — pheochromocytomas; 2 — adrenocortical carcinoma.

Download (53KB)

Copyright (c) 2025 Eco-Vector

Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.

СМИ зарегистрировано Федеральной службой по надзору в сфере связи, информационных технологий и массовых коммуникаций (Роскомнадзор).
Регистрационный номер и дата принятия решения о регистрации СМИ: серия ПИ № ФС 77 - 79539 от 09 ноября 2020 г.