Hypothesis testing using R
- Authors: Blokhin I.A.1, Kodenko M.R.1,2, Shumskaya Y.F.3,4, Gonchar A.P.1, Reshetnikov R.V.1
-
Affiliations:
- Научно-практический клинический центр диагностики и телемедицинских технологий Департамента здравоохранения города Москвы
- Московский государственный технический университет имени Н.Э. Баумана (национальный исследовательский университет)
- Научно-практический клинический центр диагностики и телемедицинских технологий
- Первый Московский государственный медицинский университет имени И.М. Сеченова (Сеченовский Университет)
- Section: Correspondence
- URL: https://jdigitaldiagnostics.com/DD/article/view/121368
- DOI: https://doi.org/10.17816/DD121368
Cite item
Full Text
Abstract
Here we present a practical guide for comparing two groups with R language. In this example, we compare the effective dose between standard computed tomography (CT) and low-dose computed tomography (LDCT) for COVID-19 patients.
Keywords
Full Text
Введение
Для современных ученых становятся всё более важными компетенции в области статистической обработки данных. В 1983 году для понимания двух третей из 760 научных публикаций престижного New England Journal of Medicine читателю было достаточно владеть базовыми понятиями описательной статистики (процент, среднее значение и стандартное отклонение) и t-критерием Стьюдента [1]. Со временем научное сообщество столкнулось с ограниченностью такого подхода к анализу данных. В 2014 году Journal of American Medical Association анонсировал специальную серию выпусков, направленную на разбор методов статистического анализа для врачей-клиницистов [2]. Сегодня в открытом доступе можно найти обзорные работы не только по базовым аспектам анализа данных [3], но и выбору подходящего метода их обработки [4]. Более того, в 2019 году опубликован подробный чек-лист по использованию статистических методов в биомедицинских исследованиях (Statistical Analysis Methods in Biomedical Research) [5].
Однако, практическое применение методов анализа данных по-прежнему оставалось бы нетривиальной задачей, если бы не активная разработка программ для его автоматизации. На фоне большого числа платных программ статистического анализа и наличия коммерческих предложений обработки данных "под ключ", очевидными преимуществами открытого программного обеспечения (open-source software) являются доступность и многофункциональность [6]. Наиболее широкими возможностями среди бесплатных решений обладает язык программирования и соответствующее программное обеспечение R [7], доступное в виде минималистичного консольного интерфейса [8] или полноценной среды разработки RStudio/Posit [9]. Цель настоящего материала - познакомить читателя с базовыми операциями в R на примере задачи из реальной практики: сравнения эффективной дозы, полученной пациентами при проведении стандартной компьютерной томографии (КТ) и низкодозной компьютерной томографии (НДКТ) при COVID-19. Актуальность задачи основывается на необходимости мониторинга лучевой нагрузки [10] в том числе в связи с нарастанием количества выполняемых лучевых исследований [11], и вследствие этого важности разработки [12] и клинической апробации [13, 14] протоколов НДКТ.
Теоретическая часть
При проведении статистического анализа необходимо придерживаться основополагающих этапов:
- Постановка задачи и формулировка нулевой гипотезы анализа
Нулевая гипотеза – отправная точка статистического анализа. Для задач сравнения двух групп нулевая гипотеза (Н0) формулируется следующим образом: «Статистически значимые различия отсутствуют». В настоящем примере проводилось сравнение эффективной дозы облучения пациентов для двух типов КТ-исследования (полнодозной и низкодозной) при COVID-19. То есть, формулировка Н0 для данной задачи: «лучевая нагрузка при КТ и НДКТ сопоставима». Необходимо также помнить про «альтернативную гипотезу» (Н1) – это гипотеза-антагонист Н0, они должны быть взаимоисключающими. В данном примере альтернативная гипотеза будет звучать так: «Эффективная доза облучения пациентов с COVID-19 при КТ и НДКТ статистически значимо отличается». Результатом проверки нулевой гипотезы в статистике является так называемое p-value, т.е. вероятность ошибочно отвергнуть Н0. Это значение можно интерпретировать следующим образом: если мы многократно повторим эксперимент и отвергнем нулевую гипотезу, то ошибемся в p-value*100 % случаев. Например, для p-value = 0.03, отвергаем Н0 в пользу Н1 и ошибаемся в 3% случаев. Много это или мало, позволяет решить заранее выбранное граничное значение. Благодаря Роналду Фишеру, в большинстве случаев граничное значение p-value берут равным 0.05 [15]. Возвращаясь к примеру, и опираясь на эту границу 0.05, для p-value 0.03 мы можем уверенно заключить, что сравниваемые выборки разные.
- Анализ исходных данных
Выбор метода статистического анализа исходных данных зависит от их типа и характера распределения. Выделяют количественные и качественные данные [16]. Количественные данные характеризуют величину явления или число объектов, например, лучевую нагрузку в миллизивертах при проведении КТ-исследования органов грудной клетки. Качественные или категориальные данные описывают отношение исследуемого явления к определенной группе, например, пол пациента или категория по шкале «КТ0-4». При анализе данных в дополнение к основной гипотезе исследования всегда необходимо проверять ещё одну Н0: «Данные распределены нормально». Нормальное распределение - одно из самых важных в области статистики, поскольку часто встречается в возникающих естественным путём явлениях: ему подчиняются рост, вес, размер обуви, а также большое количество других характеристик популяции. Оно описывается всего двумя параметрами – средним значением и среднеквадратичным отклонением, и это допущение лежит в основе ряда статистических подходов к проверке гипотез. Выбор метода проверки распределения на нормальность является задачей, не имеющей единственного решения на все случаи жизни. Так, Romao и соавторы провели сравнение 33 таких методов [17] и предложили оптимальные решения в зависимости от типа данных. Следует отметить, что выбор метода также зависит от размера исследуемой выборки [18]. Самыми популярными являются критерий Колмогорова-Смирнова и тест Шапиро-Уилка [19].
- Проверка нулевой гипотезы исследования
Помимо типа данных в сравниваемых выборках, корректный метод статистического анализа должен учитывать количество сопоставляемых групп, а также наличие связи между ними. Например, получены ли данные КТ- и НДКТ-исследований для одного и того же пациента или у разных Различных статистических тестов разработано уже более 50, и для выбора оптимального метода существуют специальные онлайн-ресурсы [20, 21].
В нашем примере выборки парные, так как КТ- и НДКТ-данные получены последовательно для одних и тех же пациентов. При нормальном распределении целесообразно использовать парный t-критерий Стьюдента, а критерий Уилкоксона – при распределении, отличном от нормального.
Практический пример
Для проведения статистического анализа был установлен программный пакет R (версия 4.2.2, https://cloud.r-project.org/) и интерфейс Posit (версия 353, https://posit.co/download/rstudio-desktop/, ранее - RStudio).
- Базовый интерфейс Posit можно разделить на консоль (console), окружение (environment), и файловый менеджер (files) (Рис. 1).
Импорт данных осуществляется посредством опции File - Import Dataset. В нашем случае производился импорт таблицы Excel, содержащей данные об эффективной дозе КТ и НДКТ. После импорта интерфейс программы изменится: в блоке окружения будет отображаться переменная с именем «data» (Рис. 2). Также в левом верхнем квадранте появится новая область – блок просмотра данных, в котором будет отображаться загруженная таблица. Сравниваемые колонки в таблице названы как «Effective Dose (CT)» и «Effective Dose (LDCT)». Использование латиницы в названиях колонок позволяет избежать проблем с кодировкой и некорректным отображением символов в Posit. Для удобства дальнейшей работы для каждой из этих колонок создадим отдельную переменную, выполнив в консоли команды, приведенные на Рис. 3.
Использование оператора «$» (Рис. 3) отображает выпадающее меню столбцов в импортированной таблице, облегчающее ввод команды. После создания переменных они будут отображаться в правом верхнем квадранте интерфейса как «values» (Рис. 4).
- Проверка нормальности распределения загруженных данных тестом Шапиро-Уилка осуществляется командой shapiro.test (Рис. 5).
Полученные p-value для обеих переменных значительно меньше выбранного граничного значения p=0.05, поэтому распределение данных для эффективной дозы как для КТ, так и НДКТ отличается от нормального. Следовательно, для проверки основной гипотезы исследования целесообразно использовать критерий Уилкоксона.
- Проверка нулевой гипотезы для связанных количественных выборок с распределением данных, отличным от нормального, выполняется командой wilcox.test (Рис. 6, Рис. 7).
Полученное p-value значительно меньше выбранного граничного значения p=0.05, поэтому Н0 можно отвергнуть в пользу Н1. Это означает, что лучевая нагрузка при КТ и НДКТ статистически значимо отличается.
Заключение
Основная задача изложенного материала – познакомить читателя с интерфейсом Posit и базовым функционалом языка R на практическом примере решения реальной медицинской задачи. Кратко обобщены теоретические подходы к обработке медицинских данных, а также рекомендации по корректной формулировке задач исследования и выбора оптимальных методов статистического анализа. Представленный материал может быть полезен на начальном этапе освоения статистического анализа с помощью инструментов языка R.
РИСУНКИ
Рисунок 1. Интерфейс программы Posit с указанием областей консоли, окружения и файлового менеджера.
Figure 1. Posit graphic user interface showing the console, environment and file manager areas.
Рисунок 2. Интерфейс Posit после импорта файла, в левом верхнем квадранте экрана появилось окно с загруженными столбцами набора данных, а в правом верхнем квадранте указано количество столбцов (variables) и строк (obs., от англ. observations - наблюдения).
Figure 2. Posit graphic user interface after importing the file; in the upper left screen quadrant a window appeared with loaded dataset columns, and in the upper right screen quadrant the number of columns (variables) and rows (obs., observations) is indicated.
Рисунок 3. Создание отдельной переменной для эффективной дозы КТ с указанием функции каждого элемента команды.
Figure 3. Creation of a separate variable for the effective dose of CT with the function of each command element indicated.
Рисунок 4. Окно Posit после импорта файла и присвоения значений переменным. В правом верхнем квадранте появились новые переменные с предпросмотром первых пяти значений в каждой, в левом нижнем квадранте – консольный интерфейс для выполнения команд.
Figure 4. Posit window after importing the file and assigning variables. New variables appeared in the upper right screen quadrant with a preview of the first five values for each variable; a console for executing commands is located in the lower left screen quadrant.
Рисунок 5. Область с консольным интерфейсом Posit. Проверка нормальности распределения данных тестом Шапиро-Уилка.
Figure 5. Area with the Posit console interface. Checking the normality of data distribution via the Shapiro-Wilk test.
Рисунок 6. Проведение теста Уилкоксона с указанием функции каждого элемента команды.
Figure 6. Conducting the Wilcoxon test with the function of each command element indicated.
Рисунок 7. Проверка нулевой гипотезы исследования с помощью критерия Уилкоксона.
Figure 7. Testing the null hypothesis of the study using the Wilcoxon test
About the authors
Ivan Andreevich Blokhin
Научно-практический клинический центр диагностики и телемедицинских технологий Департамента здравоохранения города Москвы
Author for correspondence.
Email: i.blokhin@npcmr.ru
ORCID iD: 0000-0002-2681-9378
Начальник сектора исследований в лучевой диагностике
Maria Romanovna Kodenko
Научно-практический клинический центр диагностики и телемедицинских технологий Департамента здравоохранения города Москвы; Московский государственный технический университет имени Н.Э. Баумана (национальный исследовательский университет)
Email: KodenkoMR@zdrav.mos.ru
ORCID iD: 0000-0002-0166-3768
SPIN-code: 5789-0319
Russian Federation, Moscow; Moscow
Yuliya Fedorovna Shumskaya
Научно-практический клинический центр диагностики и телемедицинских технологий; Первый Московский государственный медицинский университет имени И.М. Сеченова (Сеченовский Университет)
Email: ShumskayaYF@zdrav.mos.ru
ORCID iD: 0000-0002-8521-4045
SPIN-code: 3164-5518
Russian Federation, Moscow; Moscow
Anna Pavlovna Gonchar
Научно-практический клинический центр диагностики и телемедицинских технологий Департамента здравоохранения города Москвы
Email: a.gonchar@npcmr.ru
ORCID iD: 0000-0001-5161-6540
SPIN-code: 3513-9531
MD
Russian Federation, MoscowRoman Vladimirovich Reshetnikov
Научно-практический клинический центр диагностики и телемедицинских технологий Департамента здравоохранения города Москвы
Email: r.reshetnikov@npcmr.ru
ORCID iD: 0000-0002-9661-0254
SPIN-code: 8592-0558
Cand. Sci. (Phys.-Math.)
Russian Federation, Moscow; MoscowReferences
- Emerson JD, Colditz GA. Use of Statistical Analysis in The New England Journal of Medicine. New England Journal of Medicine. 1983 Sep 22;309(12):709–13.
- JAMA Guide to Statistics and Methods [Internet]. [cited 2022 Dec 28]. Available from: https://jamanetwork.com/collections/44042/jama-guide-to-statistics-and-methods
- Ali Z, Bhaskar SB. Basic statistical tools in research and data analysis. Indian J Anaesth. 2016 Sep;60(9):662–9.
- Mishra P, Pandey CM, Singh U, Keshri A, Sabaretnam M. Selection of Appropriate Statistical Methods for Data Analysis. Ann Card Anaesth. 2019;22(3):297–301.
- Evidence‐based statistical analysis and methods in biomedical research (SAMBR) checklists according to design features. [cited 2022 Dec 28]; Available from: https://onlinelibrary.wiley.com/doi/10.1002/cnr2.1211
- Rigby PC, German DM, Cowen L, Storey MA. Peer Review on Open-Source Software Projects: Parameters, Statistical Models, and Theory. ACM Trans Softw Eng Methodol. 2014 Sep 5;23(4):35:1-35:33.
- Culpepper SA, Aguinis H. R is for Revolution: A Cutting-Edge, Free, Open Source Statistical Package. Organizational Research Methods. 2011 Oct 1;14(4):735–40.
- Ihaka R, Gentleman R. R: A Language for Data Analysis and Graphics. Journal of Computational and Graphical Statistics. 1996 Sep 1;5(3):299–314.
- Niu G, Segall RS, Zhao Z, Wu Z. A Survey of Open Source Statistical Software (OSSS) and Their Data Processing Functionalities. International Journal of Open Source Software and Processes. 637450560000000000;12(1):1–20.
- Shatenok MP, Петровна ШМ, Shatenok MP, Ryzhov SA, Анатольевич РС, Ryzhov SA, et al. Patient dose monitoring software in radiology. Digital Diagnostics. 2022 Oct 17;3(3):212–30.
- Druzhinina U.V., Ryzhov S.A., Vodovatov A.V., et al. Coronavirus disease-2019: Changes in computed tomography radiation burden across Moscow medical facilities. Digital Diagnostics. 2022 Apr 24;3(1):5–15.
- Gombolevskiy V, Morozov S, Chernina V, Blokhin I, Vassileva J. A phantom study to optimise the automatic tube current modulation for chest CT in COVID-19. Eur Radiol Exp. 2021 May 28;5(1):21.
- Blokhin I, Gombolevskiy V, Chernina V, Gusev M, Gelezhe P, Aleshina O, et al. Inter-Observer Agreement between Low-Dose and Standard-Dose CT with Soft and Sharp Convolution Kernels in COVID-19 Pneumonia. Journal of Clinical Medicine. 2022 Jan;11(3):669.
- Blokhin IA, Андреевич БИ, Blokhin IA, Gonchar AP, Павловна ГА, Gonchar AP, et al. Impact of body mass index on the reliability of the CT0–4 grading system: a comparison of computed tomography protocols. Digital Diagnostics. 2022 Jul 14;3(2):108–18.
- Kennedy-Shaffer L. Before p < 0.05 to Beyond p < 0.05: Using History to Contextualize p-Values and Significance Testing. The American Statistician. 2019 Mar 29;73(sup1):82–90.
- Общие вопросы [Internet]. [cited 2022 Dec 28]. Available from: https://medstatistic.ru/statistics/statistics3.html
- Romão X, Delgado R, Costa A. An empirical power comparison of univariate goodness-of-fit tests for normality. Journal of Statistical Computation and Simulation. 2010 May 1;80(5):545–91.
- Lumley T, Diehr P, Emerson S, Chen L. The Importance of the Normality Assumption in Large Public Health Data Sets. Annual Review of Public Health. 2002;23(1):151–69.
- Mishra P, Pandey CM, Singh U, Gupta A, Sahu C, Keshri A. Descriptive Statistics and Normality Tests for Statistical Data. Ann Card Anaesth. 2019;22(1):67–72.
- Statistics online - checks assumptions, interprets results [Internet]. [cited 2022 Dec 28]. Available from: https://www.statskingdom.com/
- Choosing a statistical method [Internet]. [cited 2022 Dec 28]. Available from: https://medstatistic.ru/calculators/calcchoice.html
Supplementary files
There are no supplementary files to display.
