Priority radiomics parameters for computed tomography in head and neck malignancies: a systematic review
- Authors: Vasilev Y.A.1, Nanova O.G.2, Blokhin I.A.3, Reshetnikov R.V.3, Vladzymyrskyy A.A.3, Omelyanskaya O.V.3
-
Affiliations:
- Research and Practical Clinical Center for Diagnostics and Telemedicine Technologies
- Research and Practical Clinical Center for Diagnostics and Telemedicine Technologies, Department of Health Care of Moscow, Russian Federation Petrovka Street, 24, Building 1, 127051 Moscow, Russia
- Moscow Center for Diagnostics and Telemedicine
- Section: Systematic reviews
- URL: https://jdigitaldiagnostics.com/DD/article/view/623240
- DOI: https://doi.org/10.17816/DD623240
- ID: 623240
Cite item
Full Text
Abstract
Radiomics is the newest and promising direction in modern radiographic diagnostics. The number of head and neck cancer studies with employing radiomics is increasing every year. We performed a systematic review of recent publications (2021–2023) on computed tomography (CT)-based head and neck malignancies. The search for articles was carried out in the PubMed database. The basic characteristics of the selected articles were extracted and their quality was assessed with RQS 2.0 [3] and the modified QUADAS-CAD questionnaire [17]. We assessed the level of reproducibility of radiomic parameters selected for predictive models in different studies. Eleven articles were selected for our review. In most cases, there was a high risk of systematic error associated with the data imbalance in terms of demographic parameters and level of pathologies. The range of RQS 2.0 scores for the included articles varies from 19.44% to 50.00% of the maximum possible score. The main problems leading to researches quality decreasing are the lack of external validation of the results (73% of the analyzed articles) and the lack of data accessibility and transparency (82%). Inter-study reproducibility of radiomics parameters is low due to the wide variety of techniques used for image acquisition, image post-processing, extraction and statistical processing of radiomics parameters. The basic block of the stable radiomics parameters should be created for the method introducing into clinical practice. The radiomics methods standardization and creating an open radiomics database creation is necessary for this purpose.
Keywords
Full Text
ВВЕДЕНИЕ
Радиомика – новейшее направление современной медицины. Основная задача метода – повышение качества диагностики на основе параметров медицинских изображений, невидимых человеческому глазу: радиомических признаков [1]. Радиомический анализ в лучевой диагностике стремительно развивается [2]. Перспектива метода – широкое использование как вспомогательного инструмента для прогнозирования и принятия решений по тактике лечения.
На сегодняшний момент имеются несколько тысяч радиомических параметров [3], относящимся к трем основных группам: первый тип – характеристики кривой, описывающие свойства изображения, второй тип – текстурные параметры, т.е. gray-scale матрицы, характеризующие соотношения пикселей, и параметры формы. В каждой из групп радиомических признаков выделяют несколько подгрупп.
Количество параметров, использованных в исследованиях, варьируется от нескольких десятков до нескольких тысяч и зависит от способа выделения радиомических признаков: вручную или благодаря алгоритмам машинного обучения [3, 4]. Распределение по основным группам определённых параметров также максимально разнообразно: могут быть включены все группы признаков в разных пропорциях, либо, например, включены только текстурные признаки и не включены параметры формы. Выбор числа радиомических признаков и их состава при ручной обработке («handcrafted features») в настоящий момент зависит в основном от выбранного приложения для анализа и интуиции исследователя.
Перспектива внедрения радиомики, как вспомогательного диагностического инструмента во врачебную практику ставит вопрос об унифицировании набора радиомических признаков [5, 6]. Отобранные для широкого практического использования признаки должны быть воспроизводимы между разными исследованиями. Однако имеется целый ряд факторов, эти исследования различающий: анализируемые структуры, тип прогноза, способ получения и обработки изображений, статистические методы анализа радиомических признаков.
Цель настоящего исследования – систематизация данных по используемым параметрам радиомического анализа при раке головы и шеи, выявленным по данным компьютерной томографии (КТ). Рак шеи и головы, включающий новообразования в области горла, гортани, носа, пазух и рта [7] был, выбран как один из самых распространённых видов рака [8], требующий мультимодальной диагностики, начиная с КТ [9, 10, 11].
В задачи работы входят:
1. Анализ новейших публикаций (2021-2023) по радиомике рака шеи и головы на основе КТ, включая оценку распределения задач исследований, использованных методов и качества публикаций по стандартам современной радиомики;
2. Оценка воспроизводимости (устойчивости) радиомических признаков внутри одной работы и между исследованиями;
3. Сопоставление новейших публикаций с предыдущим периодом исследования.
МАТЕРИАЛ И МЕТОДЫ
Поисковая стратегия. Поиск осуществлялся в базе PubMed. Поисковый запрос ограничивался английским языком. Даты поиска выбраны таким образом, чтобы списки литературы в большинстве своем не перекрывались между нашим и другими исследованиями ([12, 13, 14]): 15 Ноября 2020 - 1 Июня 2023.
Поисковый запрос выглядел следующим образом:
“head and neck neoplasms"[MeSH Terms] AND ("artificial intelligence"[MeSH Terms] OR ("artificial"[All Fields] AND "intelligence"[All Fields]) OR "artificial intelligence"[All Fields] OR ("deep learning"[MeSH Terms] OR ("deep"[All Fields] AND "learning"[All Fields]) OR "deep learning"[All Fields]) OR ("machine learning"[MeSH Terms] OR ("machine"[All Fields] AND "learning"[All Fields]) OR "machine learning"[All Fields]) OR ("neural networks, computer"[MeSH Terms] OR ("neural"[All Fields] AND "networks"[All Fields] AND "computer"[All Fields]) OR "computer neural networks"[All Fields] OR ("neural"[All Fields] AND "network"[All Fields]) OR "neural network"[All Fields]) OR "radiomic*"[All Fields]) OR "radiomic features*"[All Fields]) OR "radiomics features*"[All Fields]) AND ("node*"[All Fields] OR "lymph node*"[All Fields] OR ("nodal"[All Fields] OR "nodally"[All Fields] OR "nodals"[All Fields]) OR "metastas*"[All Fields]).
Включали только оригинальные исследовательские статьи, исключали обзоры, мета-анализы, а также клинические случаи, в которых исследовали опухоли шеи и головы радиомическими методами. Дизайн исследования соответствует методическим рекомендациям PRISMA (Preferred Reporting Items for Systematic reviews and Meta-Analyses) [15].
Названия и абстракты найденных по поисковому запросу статей были независимо проанализированы двумя экспертами и отобран ряд статей для полнотекстового анализа. В случае расхождений относительно включения статьи в анализ привлекался третий эксперт, принимавший финальное решение. Дополнительный анализ списков литературы включенных работ для выявления публикаций, подходящих для настоящего исследования («snowballing») не проводился.
Извлечение информации и оценка качества статьи. Из полных текстов отобранных статей извлекали следующую информацию: имя первого автора, имя ответственного автора, название статьи, год выхода, DOI, название журнала, импакт-фактор журнала, страна, где выполнили исследование, задачи исследования, дизайн (проспективное/ретроспективное, одноцентровое/многоцентровое), критерии включения/исключения пациентов, число пациентов, пол и возраст пациентов, локализация опухоли и ее тип, общее число извлеченных радиомических признаков и их распределение по классам (оценивалось ли распределение по классам или нет, в случае если оценивалось, то рассматривали следующие классы: параметры формы (2D и 3D), параметры первого типа и текстурные параметры с несколькими подгруппами (Gray Level Co-occurrence Matrix, GLCM; Gray Level Run Length Matrix, GLRLM; Features Gray Level Size Zone, GLSZM; Neighbouring Gray Tone Difference Matrix, NGTDM; Gray Level Dependence Matrix, GLDM)), способ анализа радиомических признаков (использовали машинное обучение или не использовали, использованные статистические методы для отбора радиомических признаков в случае “handcrafted radiomics”), число отобранных авторами радиомических признаков в качестве имеющих предсказательную силу и их значимость.
Качество отобранных статей оценено двумя способами: по специализированной для радиомических исследований системе RQS 2.0 (Radiomics Quality Score 2.0) [16] и по универсальной для медицинских исследований системе QUADAS-2 (Quality Assessment of Diagnostic Accuracy Studies 2) ([17, 18]), модифицированный под задачи искусственного интеллекта - QUADAS-CAD
Анализ радиомических признаков. Из каждой отобранной статьи были извлечены радиомический признаки, определенные авторами, как значимые для прогноза. Рассматривались признаки полученные и на оригинальных изображениях, и на прошедших постпроцессинг. Учитывались признаки, отобранные разными статистическими методами: машинное обучение, регрессионный анализ, дисперсионный анализ, ресэмплинг (resampling), по внутриклассовому коэффициенту корреляции. Если в исследовании тестировали несколько разных гипотез, то осуществлялось извлечение радиомических признаков, приведенных для каждой гипотезы отдельно. В двух исследованиях авторы для всех извлеченных радиомических параметров приводят в открытом доступе статистики, характеризующие устойчивость этих параметров – внутриклассовый коэффициент корреляции [19] и p-level для дисперсионного анализа [20], при этом не проводя редукцию числа параметров. В этих случаях, мы, основываясь на приведенных открытых данных самостоятельно отбирали наиболее устойчивые радиомические параметры для нашего анализа.
Оценивали степень перекрывания наборов значимых радиомических признаков как между исследованиями, так и внутри одного исследования для разных конечных точек.
РЕЗУЛЬТАТЫ
Поиск литературы и отбор работ. По начальному поисковому запросу было получено 804 ссылки, у этих ссылок проанализировали названия и абстракты. В результате, 762 ссылки были исключены, как неподходящие (рассмотрены другие типы рака, не использовался радиомический анализ). По результатам анализа названия и абстракта включены 42 публикации (рис. 1). Из них в итоговый анализ включено 11 статей, а 31 статья исключена (11 статей использовали магнитно-резонансную томографию, 2 – ультразвуковое исследование, 7 исследовали рак щитовидной железы, 1 – рак пищевода, 10 – авторы не приводили используемые радиомические параметры).
Базовые характеристики статей. Табл. 1 суммирует базовые характеристики отобранных для обзора статей. Из отобранных 11 статей пять выполнены в Китае [19, 21, 22, 23, 24], 3 – в Европе (1 – Италия) [25]; 1-Португалия, Австрия, Германия [26]; 1-Нидерланды [27], 1 – США [28], 1 – Канада [20], 1 – Тайланд [29]. Самые высокорейтинговые публикации были в журналах Cancers [20] с импакт-фактором 6.575 и European Radiology [21] с импакт-фактором 6.020. Все исследования – ретроспективные. Восемь из включенных исследований – одноцентровые [20, 21, 22, 23, 25, 27, 29, 28], 3 – многоцентровые [19, 24, 26].
Радиомические признаки использовали для прогноза общей выживаемости (overall survival, OS) [25, 26, 29], выживаемости без прогрессирования (progresson-free survival, PFS) [25, 29], выживаемости без отдаленных метастазов (distant metastasis-free survival, DMFS) [28], риска локорегиональных рецидивов (locoregional recurrence, LR) [25, 26, 28], оценка появления отдаленных метастазов (distant metastasis, DM) [26], предоперационное прогнозирование метастазов в лимфатические узлы (central lymph node metastasis, CLNM) [21, 23, 234], классификация увеличенных шейных узлов (lymph nodes, LN) [22]. В одной работе исследовали влияние устойчивости радиомических параметров на качество радиомических моделей [18]. Различия в свойствах радиомических признаков в зависимости от расположения опухоли исследовали в одной статье [20]. Валидацию ранее построенной модели на других данных проводили в одной работе [27].
Качество включенных работ по шкале RQS 2.0. Табл. 2 суммирует оценку качества статей по специализированной системе для радиомического анализа RQS 2.0 [4]. Диапазон баллов для исследованных статей изменяется от 7 (19.44%) [20] до 18 (50.00%) [22] из возможных 36 (100%) баллов, при среднем значении и стандартном отклонении 10 и 4 соответственно.
В семи из 11 случаев (64%) - процесс получения изображений был хорошо запротоколирован [21, 22, 23, 24, 25, 26, 28]. Пять работ (45%) [22, 23, 25, 29, 30] учитывали влияние сегментации (повторная сегментация двумя исследователями, алгоритмы сегментации, внесение случайного шума) на извлечение радиомических признаков. Teng et al., 2022 [20] оценивали так же надежность радиомических признаков при мультицентровом характере исследований, а также влияние разных признаков на надежность моделей в целом. Ни в одной из рассматриваемых работ не проводили анализа устойчивости радиомических признаков к временным вариациям (например, движение органов, увеличение/уменьшение размеров органов). Проблема переобучения моделей и редукция числа радиомических признаков в моделях с выбором наиболее значимых рассматривалась в 10 (91%) статьях [19, 21, 22, 23, 24, 25, 26, 27, 28, 29]. Построение моделей на объединенных наборах радиомических и клинических признаков, сопоставление смешанных, радиомических и клинических моделей проводили в 8 (73%) работах [22, 24, 25, 26, 27, 28, 29, 30]. Во всех исследованиях (100%) приводятся значения достоверности и качества дискриминации (AUC, p-level, в том числе полученные при ресэмплировании данных) [31]. Достаточно низкие показатели найдены для валидации полученных радиомических моделей. Так, валидацию использовали всего в 3 (27%) статьях [20, 23, 26], из них только в одной работе (9%) использовали валидацию с привлечением данных из другого центра [26]. Также низки показатели в плане прозрачности данных, только в двух статьях данные находятся в открытом доступе: сами изображения [25] и извлеченные радиомические признаки [18].
Качество включенных работ по шкале QUADAS-CAD. Таблицы 3 и 4 суммируют оценку риска систематической ошибки, данную по QUADAS-CAD [17]. Общий риск систематической ошибки (табл. 3 и 4) высок в шести из одиннадцати проанализированных статей (54.5%) [19, 20, 25, 26, 28, 29]. В пяти из одиннадцати (45.5%) [21, 22, 23, 24, 27] статей риск систематической ошибки низкий. Риск систематической ошибки из-за несбалансированности данных высокий в семи исследованиях (64%) [19, 20, 23, 25, 26, 28, 29] и низкий в четырех (36%) [21, 22, 24, 27] исследованиях. В большинстве случаев этот риск связан с несбалансированностью выборки по демографическим параметрам и характеру патологий. Машинное обучение использовали в шести статьях [19, 20, 22, 24, 26, 28], соответственно, часть вопросов блока D2 имеет отношение только к ним. Вероятность систематической ошибки благодаря способу использования и интерпретации индексных тестов была высокой в четырех исследованиях (36%) [19, 20, 26, 29], умеренной в одном случае (9.5%) [28], и низкой в шести работах (54.5%) [21, 22, 23, 24, 25, 27]. В большинстве случаев (64%) риск ошибки, связанный с оценкой референсных стандартов, был низким [19, 21, 22, 23, 24, 27, 29]. В некоторых случаях был не ясен уровень компетенций врачей, оценивающих референсные значения, в связи с этим риск систематической ошибки оценен, как высокий (27%) [28] или умеренный (9%) [20, 25, 26]. Высокая вероятность систематических ошибок благодаря гетерогенности данных обнаружена в трех исследованиях (27%) [20, 25, 28], а низкая в восьми исследованиях (73%) [19, 21, 22, 23, 24, 26, 27, 29]. Причина неоднозначности оценок в некоторых случаях обусловлена низким уровнем детализации при описании путей анализа данных.
Использованные методы в статьях. Число извлеченных радиомических признаков варьируется от 36 [20] до 5486 [19]. Подробная информация о распределении извлеченных радиомических признаков по классам приводится в 5 статьях [22, 23, 25, 26, 28]. Машинное обучение для радиомического анализа использовали в 6 исследованиях [19, 20, 22, 24, 26, 28]. В остальных 5 работах для оценки значимости радиомических признаков в прогнозах использовали регрессионный анализ [25, 29], ANOVA [23], ICC [29], ресэмплирование данных [28], одномерные тесты для попарного сравнения признаков (t-test, Mann– Whitney U test, chi-square test, Fisher exact test) [21, 23, 27]. Число отобранных признаков в статьях варьируется от 2 [25, 27] до 19 [26]. В двух статьях авторы не производят отбор наиболее значимых признаков, а приводят соответствующие статистики для каждого из извлеченных признаков в приложении – ICC [19] и процент повторов признаков в репликах [28].
Анализ воспроизводимости признаков. Всего в 11 исследованиях в качестве валидных для прогностических моделей отобран 191 радиомический признак (табл. S1). Из них к признакам первого порядка относятся 47. Из них в пяти случаях (11%) один и тот же признак встречается в двух разных исследованиях, в остальных случаях признаки между исследованиями не повторяются. К характеристикам формы относятся 25 радиомических признаков. Из них в пяти случаях (20%) один и тот же признак встречается в двух разных исследованиях. В двух случаях (8%) один и тот же признак встречается в трех разных исследованиях. В остальных случаях признаки между исследованиями не повторяются. К признакам второго порядка относятся 119 радиомических признаков. Из них в одном (0.8%) случае один и тот же признак встречается в двух разных исследованиях.
В двух статьях радиомические признаки практически полностью воспроизводятся для разных моделей [23, 29]. Еще в двух исследованиях радиомические признаки не воспроизводятся между разными моделями [25, 28].
ОБСУЖДЕНИЕ
В статье суммированы работы по радиомическому анализу злокачественных новообразований головы и шеи при КТ за 2021-2023 гг с фокусом на формировании списка часто используемых и надежных радиомических параметров. В проанализированной литературе наблюдается большое разнообразие использованных подходов: начиная от способов получения изображений и их постобработки, так и привлекаемых программ для извлечения радиомических параметров и статистических методов их обработки. Кроме того, при построении прогностических радиомических моделей всегда проводится редукция числа радиомических параметров. Отбор параметров осуществляется самыми разными методами – от одномерных статистических тестов до машинного обучения – и определяется исключительно предпочтениями авторов. Выбранные статистические методы редукции числа признаков также существенно влияют на результат отбора параметров. Одна из основных проблем современной радиомики – сложность генерализации и внедрения в практику успехов отдельных исследований – не решена до настоящего момента, что подчеркивают результаты последнего мета-анализа мета-анализов [30].
Качество исследований. Анализ в сравнительном аспекте предыдущих систематических обзоров радиомических исследований злокачественных образований головы и шеи [13, 32] и нашего нового исследования обнаруживает ряд методологических проблем, сохраняющихся в течение десятилетия.
Одна из основных проблемных точек радиомических исследований – отсутствие валидации полученных радиомических моделей на внешних данных. В проанализированном нами наборе статей только в одном случае проводили валидацию с привлечением данных из другого центра [33].
Другая ключевая проблема – это непрозрачность данных и недостаточно полное описание методик анализа, что препятствует воспроизведению полученных в таких работах результатов. Хотя, не секрет, что воспроизводимость результата – один из базовых критериев научного подхода, а также основа для внедрения метода в практику [34].
Наши выводы согласуются с оценками, данными в других систематических обзорах. Так во всех четырех найденных нами обзорах исследований злокачественных образований головы и шеи [12, 13, 32, 35] отмечается недостаток валидации результатов на внешних данных. Giannitto et al. (2022) [13] отмечают также непрозрачность использованных в исследованиях методик, обусловленную недостаточно подробным описанием хода исследования и отсутствие оценок потенциала внедрения результатов в клиническую практику. Guha et al. (2019) [12] отмечают высокую гетерогенность в методиках, что затрудняет обобщение результатов исследований.
В настоящий момент активно развивается инициатива по стандартизации биомаркеров лучевой диагностики IBSI (https://theibsi.github.io/) [36]. C учетом детальности проработки проблемы и числа участников сообщества, данная инициатива может стать прекрасным шагом на пути к решению проблемы непрозначности радиомического анализа. Тщательное планирование клинических испытаний алгоритмов на основе интеллектуальных технологий также может повысить воспроизводимость и надежность результатов [37].
Создание открытого пространства для радиомических исследований позволит размещать там и отрицательные результаты, которые как правило не публикуются в рецензируемых источниках из-за так называемой «положительной систематической ошибки» [38]. Это крайне важно для минимизации систематических ошибок при оценке эффективности радиомического подхода. Дополнительно благодаря мета-исследованию Kocak et al. (2023) [39] можно выделить проблемы преобладания ретроспективного дизайна исследований (95%, 142/149) и отсутствия референс-теста в значительной части работ (44%, 66/149) [39].
Основной частью рассматриваемого метода являются радиомические параметры, описывающие взаимоотношения между вокселями, 2D- и 3D-характеристики образований, и другие их свойства. На текущий момент известно несколько тысяч таких параметров, однако консенсус по диагностической ценности как каждого из них, так и различных их сочетаний не достигнут. В проанализированных статьях наблюдается большой разброс в числе выбранных признаков – от единиц до тысяч. Подробно группы признаков, отражающие разные свойства новообразований, описываются в менее чем половине исследований. А в трех статьях авторы вообще не заостряют внимание на том, какие именно радиомические параметры попали в модели. Устойчивость радиомических параметров в многоцентровых исследованиях оценивали только в одной работе из проанализированных.
Для возможности внедрения прогностических радиомических моделей в широкую клиническую практику назрела необходимость выделения блока приоритетных параметров, основанных на оценке их устойчивости и воспроизводимости. Нами была сделана попытка выбрать наиболее часто встречающиеся в прогностических моделях радиомические параметры. Результаты показали, что воспроизводимость радиомических параметров крайне низка, что происходит из-за большого разнообразия используемых методик. Это согласуется с предположениями предыдущих исследователей о том, что радиомические параметры могут быть случайны и не воспроизводимы [40]. Рекомендовать какой-то блок радиомических параметров для практического использования в настоящий момент нельзя. Прежде всего должна быть проведена унификация радиомических методик и приняты рекомендуемые стандарты, после чего возможно будет выделение базового блока радиомических параметров с целью внедрения радиомического анализа медицинскую визуализацию [41]. Унификация радиомического анализа также зависит от работ в области стандартизации протоколов исследований и контроля постобработки [42].
Ограничение нашего подхода. Наша работа имеет ряд ограничений, характерных для систематических обзоров. Поскольку нашей задачей было обеспечить максимально широкий обзор существующих на данный момент исследований злокачественных новообразований головы и шеи, в обзор включены исследования и первичных, и вторичных новообразований, а также разных в гистологическом плане опухолей головы и шеи.
Поиск ограничивался базой PubMed и англоязычными работами, что, вероятно, несколько уменьшило число обнаруженных нами исследований.
Во всех исследованиях наблюдалась несбалансированность данных. Были включены только случаи патологий и не были включены не патологические случаи. Также наблюдается несбалансированность данных по демографическим параметрам.
Все это позволило провести нам только качественный синтез с использованием описательной статистики, а не полноценный метаанализ. Тем не менее, наше исследование выявило основные проблемные точки в современной радиомике и дальнейшее направление исследований в этой области.
ЗАКЛЮЧЕНИЕ
Радиомика – динамично развивающаяся современная область.
Наблюдается нарастающее число исследований с применением радиомических подходов. Мы обнаружили, что основные проблемы в этой области, препятствующие внедрению этого многообещающего метода в клиническую практику, это низкая прозрачность исследований, отсутствие открытых баз данных и отсутствие унифицированных подходов к радиомическим исследованиям. Основным направлением в развитии радиомики должны быть создание общепринятых стандартов в получении изображений, их обработки и стратегиях моделирования. Важно при проведении исследований использовать инструменты для оценки рисков систематической ошибки, например, QUADAS-2 или его модифицированные для определенных задач варианты, и учитывать рекомендации по снижению этих рисков. Также необходимо, чтобы радиомические данные были общедоступны, как это принято, например, для генетических исследований. Создание блока устойчивых радиомических параметров – необходимое условие для внедрения метода в клиническую практику. Платформа IBSI является хорошим решением для стандартизации и публикации в открытом доступе радиомических данных.
Таблицы
Таблица 1. Базовые характеристики статей
Первый автор, год | Название статьи | Журнал, импакт-фактор | Страна исследования | Цель исследования |
Franzese С., 2023 | Predictive value of clinical and radiomic features for radiation therapy response in patients with lymph node-positive head and neck cancer | Head & Neck, 3.821 | Италия | Разработка радиомических и клинических моделей, способных прогнозировать выживаемость и ответ на лечение с использованием данных компьютерной томографии (КТ) до лечения метастатических лимфатических узлов и клинических переменных пациентов с HNC, подвергнутых окончательной лучевой терапии RT/CRT. |
Gonçalves M., 2022 | Radiomics in Head and Neck Cancer Outcome Predictions | Diagnostics, 4.129 | Португалия, Австрия, Германия | Проанализировать три важных прогностических маркера у пациентов с раком головы и шеи: риск локорегиональных рецидивов, оценка появления отдаленных метастаз и оценка общей выживаемости, посредством построения и разработки моделей клинического прогнозирования, использующих возможности обучения методов машинного обучения и использующих как радиомические данные, так и клиническую информацию. |
Zhao X., 2023 | Radiomics analysis of CT imaging improves preoperative prediction of cervical lymph node metastasis in laryngeal squamous cell carcinoma | European Radiology, 6.020 | Китай | Изучить роль КТ-радиомики для предоперационного прогнозирования метастазов в лимфатические узлы (LNM) при плоскоклеточном раке гортани (LSCC). |
Teng X., 2022 | Improving radiomic model reliability using robust features from perturbations for head-and-neck carcinoma | Frontiers in Oncology, 5.738 | Китай | Оценить надежность и обобщаемость радиомической модели после отсева низконадежных признаков до радиомического моделирования. |
Zhang W., 2022 | Deep learning combined with radiomics for the classifcation of enlarged cervical lymph nodes | Journal of Cancer Research and Clinical Oncology, 4.176 | Китай | Исследовать применение глубокого обучения в сочетании с традиционными методами радиомики для классификации увеличенных шейных лимфатических узлов. |
Yang G., 2022 | Radiomics Profiling Identifies the Value of CT Features for the Preoperative Evaluation of Lymph Node Metastasis in Papillary Thyroid Carcinoma | Diagnostics, 4.129 | Китай | Определить ценность интегрирования рентгенологического анализа компьютерной томографии (КТ) с диагнозом радиологов и клиническими факторами для предоперационной диагностики метастазов в шейные лимфатические узлы (LNM) у пациентов с папиллярной карциномой щитовидной железы (PTC). |
Intarak S., 2022 | Tumor Prognostic Prediction of Nasopharyngeal Carcinoma Using CT-Based Radiomics in Non-Chinese Patients | Frontiers in Oncology, 5.738 | Тайланд | Построить прогностические модели для общей выживаемости, выживаемости без прогрессирования и выживаемости без отдаленных метастаз для пациентов с назофарингеальной карциномой с использованием радиомики на основе КТ. |
Morgan H., 2021 | Exploratory ensemble interpretable model for predicting local failure in head and neck cancer: the additive benefit of CT and intra-treatment cone-beam computed tomography features | QIMS, 4.63 | США | Оценить радиомику на основе CBCT при злокачественных опухолях HNSCC для прогнозирования клинических исходов. |
Li J., 2021 | Computed Tomography-Based Radiomics Model to Predict Central Cervical Lymph Node Metastases in Papillary Thyroid Carcinoma: A Multicenter Study | Frontiers in Oncology, 5.738 | Китай | Разработка модели радиомики на основе компьютерной томографии (КТ) для прогнозирования метастазов в центральные лимфатические узлы (CLNM) до операции у пациентов с папиллярной карциномой щитовидной железы (PTC). |
Liu X., 2021 | Site-Specific Variation in Radiomic Features of Head and Neck Squamous Cell Carcinoma and Its Impact on Machine Learning Models | Cancers, 6.575 | Канада | Оценить, существуют ли систематические различия между рентгенологическими признаками, основанными на различных участках опухоли при HNSCC, и как они могут повлиять на производительность модели машинного обучения при прогнозировании конечной точки. |
Zhai T., 2021 | External validation of nodal failure prediction models including radiomics in head and neck cancer | Oral Oncology, 5.972 | Нидерланды | Валидация ранее опубликованных моделей прогнозирования перед лечением недостаточности лимфатических узлов после окончательной лучевой терапии у пациентов с плоскоклеточным раком головы и шеи (HNSCC). |
Таблица 1. Базовые характеристики статей. Продолжение.
Первый автор, год | Дизайн | Критерии включения | Критерии исключения | Общее число пациентов; средний возраст (лет); доля женщин (%) |
Franzese С., 2023 | Ретроспективное, одноцентровое | Гистологически подтвержденные плоскоклеточные карциномы с метастатическими лимфатическими узлами, определенными рентгенологически и/или с помощью цитологии, представленные для окончательной лучевой терапии/компьютерной лучевой терапии, с рабочим статусом Восточной кооперативной онкологической группы (ECOG) ≤2 и минимальным периодом наблюдения 6 месяцев. | Пациенты были исключены, если ранее была проведена операция или облучение, если заболевание было метастатическим в начале или если металлические артефакты КТ изменили рентгенологическую область лимфатических узлов. | 106; 63; 27% |
Gonçalves M., 2022 | Ретроспективное, многоцентровое | Снимки FDG-PET/CT перед лечением со средним значением 18 дней (диапазон: 6–66) до лечения, клиническую информацию (пол, возраст, первичную локализацию, стадию рака, статус HPV) и план и дозу лучевой терапии. | Причина исключения заключалась в том, что в 68 случаях не смогли извлечь всю информацию, а в остальных 47 случаях возникли проблемы с сопоставлением данных внутри каждого случая. | 183; 61.1-66.4 для разных институтов; 19-29% |
Zhao X., 2023 | Ретроспективное, одноцентровое | Пациенты с патологически подтвержденным LSCC, перенесшие открытую операцию с лимфаденэктомией в Qilu Hospital. | (1) отсутствие КТ с контрастным усилением в учреждении, (2) предыдущее лечение гортани хирургическим вмешательством или химиолучевой терапией, (3) КТ-изображение более чем за 2 недели до операции или субоптимальное качество изображения, (4) невидимая опухоль в анамнезе КТ и (5) подсвязочный рак из-за нехватки квалифицированных случаев. | 464; 59.74-62.61 для разных когорт; 4-6% |
Teng X., 2022 | Ретроспективное, многоцентровое | В исследование были включены только пациенты с доступными 1) КТ-изображениями до лечения, 2) записями клинических исходов как DM, так и LR, и 3) контурами первичного макроскопического объема опухоли (GTV). | нет | 1419; нет данных; нет данных |
Zhang W., 2022 | Ретроспективное, одноцентровое | 1. КТ шеи в артериальной фазе; 2. единичные или множественные увеличенные лимфатические узлы с наименьшим диаметром более 1 см на КТ-изображениях; 3. Подтверждение случаев с помощью хирургического вмешательства или биопсии, где это возможно, и доброкачественных поражений, например, вызванных воспалением и туберкулезом, последующим клиническим лечением. | 1. повторное обследование поражения после лечения и 2. наличие КТ-изображений с артефактами, влияющими на наблюдение и измерение. | 276; 50.15–52.87 для разных групп; 38.5%-45.5% |
Yang G., 2022 | Ретроспективное, одноцентровое | (1) подтвержденный PTC; (2) диагностированное патологическое состояние лимфатических узлов; (3) предоперационная бесконтрастная КТ и двухфазная динамическая контрастная КТ достаточно высокого качества для анализа; и (4) доступная клиническая информация. | (1) предоперационная терапия (такая как лучевая терапия, химиотерапия или интервенционная терапия); (2) другие злокачественные новообразования; (3) послеоперационное патологическое подтверждение многоочагового PTC; и (4) нечеткие КТ-изображения первичных опухолей или опухоли слишком малы для сегментации и анализа (максимальный диаметр ≤ 3 мм). | 178; 42.55-49.45 для разных групп; 75.8% |
Intarak S., 2022 | Ретроспективное, одноцентровое | (a) впервые диагностированные пациенты с NPC, (b) отсутствие признаков отдаленных метастаз, (c) время наблюдения не менее 3 лет, (d) проведена симуляция КТ и МРТ, (e) проведена IMRT с химиотерапией, и (f) доступный уровень ДНК вируса Эпштейна-Барр (EBV) в плазме до лечения. | нет | 197; 50; 20.8% |
Morgan H., 2021 | Ретроспективное, одноцентровое | Пациенты были включены, если у них был диагностирован местно-распространенный HNSCC (включая ротоглотку, надгортанную область, голосовую щель или гортаноглотку) и они прошли полный курс лучевой терапии с ежедневной или еженедельной конусно-лучевой компьютерной томографией (КЛКТ). Большинство пациентов получали одновременно химиотерапию. | Пациенты были исключены, если они ранее получали индукционную химиотерапию, имели период наблюдения менее 1 года без достижения конечной точки LF, имели отдаленные метастазы (DM) на момент поступления, имели в анамнезе облучение головы и шеи или имели наличие отдельного активного злокачественного новообразования. Резекция первичных опухолей была разрешена, если имелось заболевание узлов, которое не было удалено и доступно для оценки (первичные опухоли и узлы оценивались отдельно в этой работе). Пациенты также были исключены, если они достигли смерти до 1 года с неясным статусом их злокачественного новообразования, в случае, если оценка ответа на их заболевание не могла быть определена. | 57; нет данных; нет данных |
Li J., 2021 | Ретроспективное, многоцентровое | a) единичное поражение; (b) гистологически подтвержденный PTC; b) не подвергались предоперационному противоопухолевому лечению; c) КТ с контрастированием выполнена за 2 недели до операции; (d) пациенты перенесли диссекцию шеи с ипсилатеральной лобэктомией или тотальной тиреоидэктомией и получили патологический диагноз лимфатических узлов. | (а) послеоперационное патологоанатомическое исследование показало сопутствующие не-PTC компоненты поражения (такие как атипическая гиперплазия, фолликулярные опухоли, медуллярные карциномы, недифференцированные карциномы и метастатические карциномы); (b) биопсия перед КТ; (c) отсутствие предоперационной КТ щитовидной железы; (d) пациент страдал другими сопутствующими злокачественными новообразованиями, такими как лимфома, рак молочной железы или рак печени; (e) первичная опухоль была нечеткой на КТ-изображениях; (f) первичная опухоль имела максимальный диаметр <0,5 см; (g) первичную опухоль было трудно сегментировать из-за узлового зоба или хронического лимфоцитарного тиреоидита; (h) послеоперационное патологическое исследование показало мультифокальный PTC. | 678; 44; 73.8% |
Liu X., 2021 | Ретроспективное, одноцентровое | Пациенты с подтвержденной первичной патологией HNSCC с помощью компьютерной томографии (КТ) до лечения в полости рта, ротоглотке, в гортани или гортаноглотке. | нет | 605; 64; 21.8% |
Zhai T., 2021 | Ретроспективное, одноцентровое | Пациенты с доступными данными планирования лучевой терапии на основе КТ с контрастным усилением и стандартная процедура последующего наблюдения. | Пациентов исключали, если хирургическое вмешательство на шее выполнялось до лучевой терапии или были обнаружены металлические артефакты КТ в области патологических лимфатических узлов. | 257; 62; 26.5% |
Таблица 1. Базовые характеристики статей. Продолжение.
Первый автор, год | Положение и тип исследуемых новообразований | Число извле-ченных радио-мических призна-ков | Классы радио-мических признаков | Исполь-зование машинного обучения | Число отобранных радиоми-ческих признаки в качестве значимых |
Franzese С., 2023 | Лимфатические узлы ротоглотки, носоглотки, гортаноглотки, гортани, полости рта; плоскоклеточный рак головы и шеи (HNSCC) | 39 | Признаки первого порядка, признаки второго порядка (GLCM, NGLDM, GLRLM, GLZLM) | нет | 2 (LRF), 5 (PFS) |
Gonçalves M., 2022 | Опухоли головы и шеи; - | 1288 | Признаки формы (14), признаки первого порядка (18), признаки второго порядка (22 GLCM, 16 GLRLM, 16 GLSZM, 14 GLDM, 5 NGTDM). | да | 19 (LR), 19 (DM), 16 (OS) |
Zhao X., 2023 | Метастазы в шейных лимфатических узлах; плоскоклеточный рак гортани (LSCC) | 960 | Не рассматриваются | нет | 9 |
Teng X., 2022 | Опухоли головы и шеи; - | 5486 | Не рассматриваются | да | В приложении приведена таблица ICC для каждого признака |
Zhang W., 2022 | Шейные лимфатические узлы (с метастазами в лимфатические узлы, лимфомой и доброкачественной лимфаденопатией); метастатические лимфатические узлы, происходят от первичной карциномы, плоскоклеточного рака головы и шеи, папиллярная карциномы щитовидной железы, рака молочной железы, карциномы легкого, меланомы, холангиокарциномы, рака желудка, рака мочевого пузыря, рака толстой кишки; доброкачественные лимфатические узлы - реактивная гиперплазия, воспаление -туберкулез. | 526 | Признаки формы (6), признаки первого порядка (8), второго порядка (512) | да | 18 |
Yang G., 2022 | Метастазы в шейных лимфатических узлах; папиллярная карцинома щитовидной железы (PTC) | 2553 | Признаки формы (14), признаки первого порядка (18), признаки второго порядка (24 GLCM, 16 GLRLM, 16 GLSZM, 5 NGTDM, 14 GLDM), wavelet - 744 | нет | 16 (noncontrast model), 15 (arterial contrast model), 11 (venous contrast model), 14 (three-phase radiomics model) |
Intarak S., 2022 | Опухоли головы и шеи; назофарингеальная карцинома (NPC) | 842 | Признаки формы, признаки первого порядка, признаки второго порядка, wavelet | нет | 4 (OS, Logistic regression ), 4 (PFS, Logistic regression ), 4 (DMFS, Logistic regression ), 4 (OS, Cox regression ), 4 (PFS, Cox regression), 4 (DMFS, Cox regression) |
Morgan H., 2021 | Ротоглотка, надгортанная, голосовая или гортаноглотка; плоскоклеточный рак головы и шеи (HNSCC) | 102 | Признаки формы (14), признаки первого порядка (18), признаки второго порядка (24 GLCM, 16 GLRLM, 16 GLSZM, 14 GLDM) | да | В приложении приведена таблица повторов в 125 репликах для каждого признака |
Li J., 2021 | Метастазы шейных лимфатических узлов; папиллярная карцинома щитовидной железы (PTC) | 4227 | Не рассматриваются | да | 14 |
Liu X., 2021 | Полость рта, ротоглотки, гортани и гортаноглотки; плоскоклеточный рак головы и шеи (HNSCC) | 36 | Признаки первого порядка | да | 5 |
Zhai T., 2021 | Полость рта, глотки или гортань; плоскоклеточный рак головы и шеи (HNSCC) | 82 | Не рассматриваются | нет | 2 |
Таблица 2. Оценка качества радиомики по RQS-2.0
Чек-лист | Franzese С., 2023 | Gonçalves M., 2022 | Zhao X., 2023 | Teng X., 2022 | Zhang W., 2022 | Yang G., 2022 | Intarak S., 2022 | Morgan H., 2021 | Li J., 2021 | Liu X., 2021 | Zhai T., 2021 |
Image protocol quality - well-documented image protocols (for example, contrast, slice thickness, energy, etc.) and/or usage of public image protocols allow reproducibility/replicability | protocols well documen-ted | none | protocols well documen-ted | none | protocols well documen-ted | protocols well documen-ted | none | none | protocols well documen-ted | protocols well documen-ted | protocols well documen-ted |
Multiple segmentations - possible actions are: segmentation by different physicians/algorithms/software, perturbing segmentations by (random) noise, segmentation at different breathing cycles. Analyse feature robustness to segmentation variabilities | no | no | yes | no | yes | no | yes | yes | yes | no | no |
Phantom study on all scanners - detect inter-scanner differences and vendor-dependent features. Analyse feature robustness to these sources of variability | no | no | no | yes | no | no | no | no | no | no | no |
Imaging at multiple time points - collect images of individuals at additional time points. Analyse feature robustness to temporal variabilities (for example, organ movement, organ expansion/shrinkage) | no | no | no | no | no | no | no | no | no | no | no |
Feature reduction or adjustment for multiple testing - decreases the risk of overfitting. Overfitting is inevitable if the number of features exceeds the number of samples. Consider feature robustness when selecting features | Either measure is implemented | Either measure is implemented | Either measure is implemented | Either measure is implemented | Either measure is implemented | Either measure is implemented | Either measure is implemented | Either measure is implemented | Either measure is implemented | Neither measure is implemented | Either measure is implemented |
Multivariable analysis with non radiomics features (for example, EGFR mutation) - is expected to provide a more holistic model. Permits correlating/inferencing between radiomics and non radiomics features | yes | yes | yes | no | no | yes | yes | yes | yes | no | yes |
Detect and discuss biological correlates - demonstration of phenotypic differences (possibly associated with underlying gene–protein expression patterns) deepens understanding of radiomics and biology | no | no | no | no | yes | no | no | no | no | no | no |
Cut-off analyses - determine risk groups by either the median, a previously published cut-off or report a continuous risk variable. Reduces the risk of reporting overly optimistic results | no | no | yes | no | no | no | no | no | no | no | no |
Discrimination statistics - report discrimination statistics (for example, C-statistic, ROC curve, AUC) and their statistical significance (for example, p-values, confidence intervals). One can also apply resampling method (for example, bootstrapping, cross-validation) | a discrimi-nation statistic and its statistical signifi-cance are reported | a discrimi-nation statistic and its statistical signifi-cance are reported | 1) a discrimi-nation statistic and its statistical signifi-cance are reported; 2) a resamp-ling method techni-que is also applied | 1) a discrimi-nation statistic and its statistical signifi-cance are reported; 2) a resampling method technique is also applied | a discrimi-nation statistic and its statistical signifi-cance are reported | 1) a discrimi-nation statistic and its statistical signifi-cance are reported; 2) a resamp-ling method technique is also applied | 1) a discrimi-nation statistic and its statistical signifi-cance are reported; 2) a resamp-ling method technique is also applied | 1) a discrimi-nation statistic and its statistical signifi-cance are reported; 2) a resamp-ling method technique is also applied | 1) a discrimination statistic and its statistical significance are reported; 2) a resampling method technique is also applied | 1) a discrimi-nation statistic and its statistical signifi-cance are reported; 2) a resamp-ling method technique is also applied | a discrimi-nation statistic and its statistical signifi-cance are reported |
Calibration statistics - report calibration statistics (for example, Calibration-in-the-large/slope, calibration plots) and their statistical significance (for example, P-values, confidence intervals). One can also apply resampling method (for example, bootstrapping, cross-validation) | a calibration statistic and its statistical signifi-cance are reported | none | 1) a calibration statistic and its statistical signifi-cance are reported; 2) a resampling method technique is applied | none | none | a resamp-ling method technique is applied | none | none | a calibration statistic and its statistical significance are reported | none | a calibration statistic and its statistical signifi-cance are reported |
Prospective study registered in a trial database - provides the highest level of evidence supporting the clinical validity and usefulness of the radiomics biomarker | no | no | no | no | no | no | no | no | no | no | no |
Validation - the validation is performed without retraining and without adaptation of the cut-off value, provides crucial information with regard to credible clinical performance | no validation | No validation | validation is based on a dataset from the same institute | No validation | No validation | No validation | No validation | No validation | validation is based on a dataset from the same institute | No validation | validation is based on a dataset from another institute |
Comparison to 'gold standard' - assess the extent to which the model agrees with/is superior to the current 'gold standard' method (for example, TNM-staging for survival prediction). This comparison shows the added value of radiomics | no | no | yes | no | no | no | no | no | yes | yes | no |
Potential clinical utility - report on the current and potential application of the model in a clinical setting (for example, decision curve analysis). | yes | yes | yes | no | yes | yes | yes | yes | yes | yes | no |
Cost-effectiveness analysis - report on the cost-effectiveness of the clinical application (for example, QALYs generated) | no | no | yes | no | no | no | no | no | no | no | no |
Open science and data - make code and data publicly available. Open science facilitates knowledge transfer and reproducibility of the study | no | scans are open source | no | radiomics features are calculated on a set of representative ROIs and the calculated features and representative ROIs are open source | no | no | no | no | no | no | no |
Суммарная оценка | 9 | 8 | 18 | 7 | 9 | 10 | 9 | 9 | 16 | 7 | 10 |
% | 25.00 | 22.22 | 50.00 | 19.44 | 25.00 | 27.78 | 25.00 | 25.00 | 44.44 | 19.44 | 27.78 |
Таблица 3. Опросник по QUADAS-CAD
Домен | Вопросы | Franzese С., 2023 | Gonçalves M., 2022 | Zhao X., 2023 | Teng X., 2022 | Zhang W., 2022 | Yang G., 2022 | Intarak S., 2022 | Morgan H., 2021 | Li J., 2021 | Liu X., 2021 | Zhai T., 2021 |
D1 | Were the data (training and testing sets) balanced by the severity (including the absence) of the target pathology? | no | no | yes | unclear | yes | yes | no | no | yes | no | yes |
Were the data (training and testing sets) balanced in terms of demographic factors? | no | no | yes | unclear | yes | no | no | unclear | yes | no | yes | |
Did the study avoid inappropriate exclusions? | yes | no | yes | unclear | yes | yes | unclear | unclear | yes | unclear | yes | |
D2 | If a neural network was used, did the training and testing datasets have no intersections or resembles? | x | yes | x | unclear | yes | x | x | yes | yes | unclear | x |
If a neural network was used, was the size of each set rationalized? | x | no | x | yes | yes | x | x | yes | yes | yes | x | |
If a pathology threshold was used, was it prespecified? | yes | x | yes | x | yes | yes | no | unclear | yes | unclear | yes | |
If a decision threshold (for AI) was used, was it prespecified? | x | x | x | x | x | x | x | unclear | x | x | x | |
D3 | Is the reference standard likely to correctly classify the target condition? | unclear | unclear | yes | yes | yes | yes | yes | unclear | yes | yes | yes |
Were the reference standard results prepared or verified with the required level of expertise? | unclear | unclear | yes | yes | unclear | yes | yes | unclear | yes | unclear | yes | |
D4 | Was there transparency in how the outcomes were generated? | unclear | yes | yes | yes | yes | yes | yes | no | yes | yes | yes |
Did all patient data have the same reference standard? | unclear | yes | yes | yes | unclear | yes | yes | no | unclear | no | yes |
Таблица 4. Оценка риска смещения по QUADAS-CAD
Первый автор, год | D1 | D2 | D3 | D4 | Overall | Weight (%) |
Franzese С., 2023 | high | low | some concerns | high | high | 2 |
Gonçalves M., 2022 | high | high | some concerns | low | high | 4 |
Zhao X., 2023 | low | low | low | low | low | 10 |
Teng X., 2022 | high | high | low | low | high | 32 |
Zhang W., 2022 | low | low | low | low | low | 6 |
Yang G., 2022 | high | low | low | low | low | 4 |
Intarak S., 2022 | high | high | low | low | high | 4 |
Morgan H., 2021 | high | some concerns | high | high | high | 1 |
Li J., 2021 | low | low | low | low | low | 15 |
Liu X., 2021 | high | high | some concerns | high | high | 14 |
Zhai T., 2021 | low | low | low | low | low | 6 |
Рисунки
Рис. 1. Блок-схема систематического поиска литературы.
About the authors
Yuriy A. Vasilev
Research and Practical Clinical Center for Diagnostics and Telemedicine Technologies
Email: VasilevYA1@zdrav.mos.ru
ORCID iD: 0000-0002-0208-5218
SPIN-code: 4458-5608
MD, Cand. Sci. (Med.)
Russian Federation, MoscowOlga G. Nanova
Research and Practical Clinical Center for Diagnostics and Telemedicine Technologies, Department of Health Care of Moscow, Russian FederationPetrovka Street, 24, Building 1, 127051 Moscow, Russia
Author for correspondence.
Email: nanova@mail.ru
ORCID iD: 0000-0001-8886-3684
SPIN-code: 6135-4872
ведущий научный сотрудник
Отдел научных медицинских исследований
Russian FederationIvan A. Blokhin
Moscow Center for Diagnostics and Telemedicine
Email: i.blokhin@npcmr.ru
ORCID iD: 0000-0002-2681-9378
SPIN-code: 3306-1387
Russian Federation, Moscow
Roman V. Reshetnikov
Moscow Center for Diagnostics and Telemedicine
Email: reshetnikov@fbb.msu.ru
ORCID iD: 0000-0002-9661-0254
SPIN-code: 8592-0558
Russian Federation, Moscow
Anton A. Vladzymyrskyy
Moscow Center for Diagnostics and Telemedicine
Email: a.vladzimirsky@npcmr.ru
ORCID iD: 0000-0002-2990-7736
SPIN-code: 3602-7120
Russian Federation, Moscow
Olga V. Omelyanskaya
Moscow Center for Diagnostics and Telemedicine
Email: OmelyanskayaOV@zdrav.mos.ru
ORCID iD: 0000-0002-0245-4431
SPIN-code: 8948-6152
Russian Federation, Moscow