logo
КОБРИНСКИЙ (Восстановлен) МИ

3.4. Использование методов математической статистики для анализа данных

В учебном издании по медицинской информатике было бы из­лишне приводить подробные описания методов математической статистики, тем более что в последние годы вышло достаточно большое количество специальной литературы, рассчитанной на практикующего врача, с описанием как наиболее часто использу­ющихся методов, так и работы со статистическими пакетами. По­этому здесь мы ограничимся лишь краткими сведениями, полез­ными для клинициста, но не достаточными для приобретения реальных знаний по математической статистике.

Сравнение двух независимых групп по одному параметру. t-Кри­терий Стьюдента для независимых выборок (групп) является наи­более популярным методом решения этой задачи, суть которой сводится к проверке того, различаются ли средние значения па­раметра в сравниваемых группах. Критерий корректно использо­вать только при условии нормального распределения параметров в каждой группе и равенства дисперсий распределений парамет­ров в группах.

Суть применения t-критерия Стьюдента для независимых вы­борок заключается в проверке нулевой гипотезы о том, что сред­ние значения параметра в группах не различаются. Если нулевая гипотеза по результатам анализа отклоняется < 0,05), прини­мается альтернативная гипотеза о том, что средние значения па­раметров в группах различаются.

Правомочно использовать t-критерий Стьюдента для незави­симых выборок лишь при достаточно большом объеме выборок, что в клинической медицине бывает редко.

Кроме «классического» t-критерия Стьюдента существует его модификация, не требующая равенства дисперсий распределений параметров в группах.

В настоящее время, когда врачи становятся более сведущими в математической статистике, критерий Манна-Уитни (Мапп — Whitney U-test) используют почти так же часто, как t-критерий. Его применяют для сравнения выборок по количественным пара­метрам в случаях, когда хотя бы одна из сопоставляемых выборок имеет распределение, отличное от нормального, или если харак­тер распределения параметра неизвестен (проверка на нормаль­ность не проводилась).

Суть метода заключается в проверке нулевой гипотезы о равен­стве средних рангов в группах, т.е. до проверки гипотезы осуще­ствляется ранжирование значений параметра в каждой группе. Если нулевая гипотеза отклоняется, принимается альтернативная ги­потеза о том, что между рангами групп есть различия.

Сравнение двух зависимых групп по одному параметру. t-Крите­рий Стьюдента для зависимых выборок, так же как и t-критерий Стьюдента для независимых выборок, можно применять только при условии нормального распределения параметров в каждой группе и равенства дисперсий распределений параметров в груп­пах. В большинстве случаев на реальных клинических данных эти условия не выполняются, поэтому применение метода не право­мочно.

Критерий Вилкоксона (Wilcoxon matched pairs test) один из самых мощных непараметрических критериев. Его используют для парного сравнения выборок количественных (или качественных порядковых) параметров в тех случаях, когда хотя бы в одной из анализируемых выборок распределение величин параметра не яв­ляется нормальным.

При применении критерия Вилкоксона проверяется нулевая гипотеза об отсутствии различий выборок. Если она отклоняется (р < 0,05), принимается альтернативная — об их наличии.

Анализ взаимосвязи двух параметров. Общепринятым способом выявления взаимосвязи между переменными является расчет кор­реляции.

Следует подчеркнуть, что обнаружение корреляции между дву­мя переменными не свидетельствует о существовании причин­ной связи между ними, а лишь указывает на возможность тако­вой (или фактора, определяющего изменение обеих перемен­ных).

Обычно при использовании методов корреляции перед иссле­дователем возникает вопрос о тесноте связи (степени сопряжен­ности) переменных. Если каждому заданному значению одной переменной соответствуют близкие друг к другу, тесно располо­женные около средней величины значения другой переменной, то связь является более тесной; если эти значения сильно варьи­руют, связь менее тесная. Таким образом, мера корреляции (зна­чение коэффициента корреляции г) указывает, насколько тесно связаны между собой параметры. Чем больше коэффициент кор­реляции, тем с большей степенью уверенности можно говорить о наличии линейной зависимости между параметрами.

Условно выделяют следующие уровни корреляционной свя­зи: слабая — около 0,3; умеренная — от 0,31 до 0,5; заметная — от 0,51 до 0,7; высокая — 0,71 и более.

По форме корреляция бывает прямой (при увеличении значе­ний первой переменной значения второй также увеличиваются) и обратной (при увеличении значений первой переменной значе­ния второй убывают). Коэффициент корреляции г принимает зна­чения от -1 до +1. Обсуждать наличие корреляции имеет смысл только в тех случаях, когда она статистически значима < 0,05). Отсутствие линейной корреляции не означает, что параметры независимы: связь между ними может быть нелинейной.

Наиболее часто применяемыми в настоящее время методами исследования корреляции являются параметрический анализ по Пирсону и непараметрический анализ по Спирмену.

Корреляционный анализ по Пирсону используется при реше­нии задачи исследования линейной связи двух нормально распре­деленных параметров. Проверяется нулевая гипотеза об отсутствии связи между параметрами, т.е. что г- 0. Кроме проверки на нор­мальность распределения каждого параметра до проведения кор­реляционного анализа рекомендуется строить график в координа­тах оцениваемых параметров, чтобы визуально определить харак­тер зависимости. Если нулевая гипотеза отклоняется < 0,05), можно говорить о наличии значимой взаимосвязи между пара­метрами.

Корреляционный анализ по Спирмену применяется для ис­следования взаимосвязи двух параметров, если распределение хотя бы одного из них отлично от нормального. Проверяется нулевая гипотеза о том, что коэффициент корреляции равен нулю. Если нулевая гипотеза отклоняется < 0,05), взаимосвязь между па­раметрами есть.

Одновременный анализ трех и более параметров. Наряду с мето­дами одномерного и двухмерного анализа существует большое ко­личество методов многомерного (многофакторного) анализа дан­ных. Они дают возможность одновременно анализировать три и более переменные. К наиболее используемым методам многомер­ного анализа относятся: регрессионный анализ, дискриминантный анализ, кластерный анализ, дисперсионный анализ, анализ главных компонентов, факторный анализ.

В клинических работах методы многофакторного анализа ис­пользуются гораздо реже, чем описательная статистика, методы сравнения двух групп по параметру и корреляционный анализ, I хотя в последние годы наметилась тенденция к более широкому 1 применению регрессионного анализа.

Регрессионный анализ представляет собой метод статистического анализа, позволяющий исследовать вид зависимости одного параметра от нескольких других. Наряду с дискриминантным и кластерным он является одним из методов статистического моделирования. Моделью при этом является получаемое уравнение регрессии. С помощью рассчитываемых в ходе peгрессионного анализа константы и коэффициентов можно про­гнозировать величину исследуемого параметра в зависимости от значений других переменных. В отличие от корреляционного анализа, который лишь дает возможность установления факта взаимосвязи параметров, он описывает вид зависимости пере­менных.

Регрессионный анализ подразделяют на однофакторный (один независимый параметр) и многофакторный (два и более незави­симых параметра), а также линейный и нелинейный.

Линейный регрессионный анализ используется в тех случаях, когда все задействованные в нем параметры являются нормально распределенными, количество значений параметров намного пре­вышает количество самих параметров и т.д. Число ограничений на корректное проведение регрессионного анализа достаточно велико.

Самым употребляемым видом нелинейного регрессионного анализа в настоящее время является логистический. Главными ус­ловиями его применения является возможность принятия зависи­мым параметром только двух значений (например, есть заболева­ние — единица, нет заболевания — нуль). Все остальные парамет­ры, задействованные в анализе, должны быть независимыми, при этом они могут быть любыми по типу — как количественными, так и качественными.

Дискриминантный анализ — это один из методов решения зада­чи классификации — разработки правила отнесения исследуемо­го объекта к одной из нескольких групп на основании величин выделенных параметров.

Кластерный анализ является методом статистической группи­ровки объектов или параметров исследования в кластеры (от англ. cluster — гроздь, скопление) — подмножества исследуемой вы­борки.

Использование в практической деятельности врача методов многофакторного статистического анализа выходит за рамки не­обходимых знаний и навыков, которыми он должен владеть. Их применение требует глубоких знаний математической статис­тики, определенного опыта работы с медицинскими данными, а порой — даже искусства. I