logo
КОБРИНСКИЙ (Восстановлен) МИ

3.3. Подготовка, предварительный анализ информации и выбор методов обработки данных

Рассмотрим пример из клинической дисциплины.

Постановка задач и планирование исследования. Предпочтитель­ным вариантом является строгий подход, когда до проведения исследования есть полная ясность, для чего предпринимается ра­бота, сколько и каких исследований будет осуществлено, какие методы и почему будут применяться для обработки полученного материала. Это позволяет оптимизировать усилия исследователя и затраты ресурсов.

Данный вариант исследования не исключает использования (целиком или частично) ретроспективных данных (собранных ранее и имеющихся в медицинской документации). В принципе нужно помнить, что в этом случае исследователя подстерегает еще одна «ловушка», связанная с различным толкованием симптомов. Это же может иметь место и при проспективном исследовании с участием группы врачей, особенно придерживающихся различ­ных научных школ. Поэтому помимо списка признаков, характе­ризующих заболевание, необходимо иметь их стандартные описа­ния. Это в значительной степени позволит избежать различий в толковании одних и тех же симптомов. Однако в клинической прак­тике до сих пор достаточно часто сначала получают данные, а уже затем клиницист решает, каким образом на имеющемся материа­ле получить некий обобщающий результат.

Подготовка данных. Данные для статистического анализа при­нято готовить в виде таблицы (таблиц). Современные статистиче­ские пакеты работают с данными наиболее распространенных в настоящее время форматов, в том числе .dbf и .xls.

В строки таблицы заносятся объекты исследования (например, паци­енты), а в столбцы — параметры. Если конкретное значение параметра отсутствует, клетку таблицы оставляют пустой. Если значение параметра равно нулю, оно все равно обязательно вносится. Если пациенты обсле­довались в динамике, т.е. по каждому больному есть несколько «срезов» параметров, обычно вводится дополнительный столбец, однозначно определяющий для конкретного больного (и соответственно — значений параметров) время исследования (например, номер хирургических су­ток). Таблицы данных включают в себя столбец (столбцы) группирующих параметров (например, номер группы, исход заболевания, если именно по нему будут исследоваться пациенты, и т.д.).

После занесения данных в таблицу необходимо их проверить: просматривают значения параметров, выявляют те из них, кото­рые сильно отличаются от остальных. Это могут быть как реаль­ные «выпадающие» значения, так и ошибки ввода, которые не­обходимо устранить.

Перенос (импорт) данных в статистический пакет затрудне­ний не вызывает. Для этого пользуются стандартными возможно­стями буфера обмена ОС Windows. Можно также применять специ­альные модули статистических пакетов, например модуль «Уп­равление данными» (Data management) пакета Statistica.

Современные статистические пакеты дают возможность управ­лять данными: часто при решении задач возникает необходимость объединения или разделения файлов (содержащих таблицы) по условию.

Выбор методов анализа и их реализация. Для грамотного выбо­ра метода обработки данных необходимо знать характер распреде­ления используемых переменных, поэтому предварительный ана­лиз данных начинают с определения характера их распределения.

Распределение элементов выборки по значениям параметра — это сово­купность частот встречаемости интервалов его значений в данной вы­борке. К наиболее часто встречающимся видам распределений относят­ся: колоколообразное (нормальное, гауссово), полимодальное (чаще — бимодальное), равномерное и др.

К основным характеристикам распределения относятся:

В медицинских публикациях часто встречается запись значений в виде М± т, где т — стандартная ошибка среднего (standard error of mean). Это допустимо делать в случае нормально распределен­ного параметра, а к величине т нужно относиться с определен­ной долей скептицизма. Правда, при увеличении выборки рас­пределение параметра достаточно часто стремится к квазинормаль­ному, и тогда использование т в какой-то мере оправдано. Лучше указывать само выборочное стандартное отклонение (среднее квад­ратичное отклонение — standard deviation s), которое характе­ризует ширину нормального распределения. Основанием для та­кого подхода является то, что s не уменьшается при увеличении числа наблюдений п; в диапазон М ± s укладывается около 70% значений нормального распределения параметра.

Параметрические методы. Для решения многих клинико-научных задач необходимо формулировать статистические гипотезы. Среди них можно назвать анализ соответствия распределения зна­чений параметра определенному закону, сравнение групп по ха­рактеристикам распределения параметров и др.

Статистическая гипотеза — это формально строго сформули­рованное предположение.

Нулевой (Н0) называют гипотезу, которую исследователь предпола­гает отклонить (например, об отсутствии различий между группами).

Альтернативная гипотеза (Н1) противоположна нулевой (например, о наличии различий между группами).

Уровень статистической значимости (а) — это пороговое значение для ошибочного отклонения верной нулевой гипотезы (ошибки первого рода). В медицине принято выбирать а = 0,05 или а = 0,01.

Ошибка второго рода — это ошибочное принятие ложной нулевой гипотезы.

В настоящее время в публикациях принято указывать реальное значе­ние р (вероятность ошибки первого рода). Если значение р меньше 0,05, говорят о наличии статистически значимых отличий между выборками параметра.

Статистически значимые различия следует отличать от клини­чески значимых. Встречаются результаты, значимые статистически, но не значимые с клинической точки зрения, бывает и наоборот. Клинически значимые, но статистически незначимые результаты обычно получаются на малых выборках, а при увеличении выбо­рок они, как правило, подтверждаются и статистически.

Чем распределения отличаются с практической точки зрения? Тем, что наиболее распространенные методы параметрической статистики (например, t-критерий Стьюдента) можно применять только для нормально распределенных величин (колоколообразных распределений). Неправомочное использование t-критерия Стьюдента — самая часто встречающаяся ошибка статистической обработки данных клинических исследований, приводящая к оши­бочным выводам.

Непараметрические методы. В клинической медицине и при об­работке данных медико-биологических экспериментов в большин­стве случаев необходимо пользоваться непараметрическими ме­тодами статистического анализа. Они являются менее мощными, чем параметрические, но применимы для любых видов распределений.

Анализ характера распределения данных (его еще называют проверкой на нормальность распределения) осуществляется по каждому параметру. Для проверки на нормальность используют как визуализирующие методы (метод построения гистограмм), так и статистические (например, тест Колмогорова—Смирнова, кри­терий Шапиро—Уилкса). Для того чтобы уверенно судить о соот­ветствии распределения параметра нормальному закону, необхо­димо, чтобы выборка была достаточно многочисленной (не менее 50 значений).

Кроме разделения по уже описанному важнейшему статисти­ческому подходу (параметрические, непараметрические) методы статистического анализа данных принято классифицировать не­сколькими способами:

1) по количеству одновременно анализируемых параметров (одномерные, двухмерные, многомерные или многофакторные);

2) имеющимся исходно предположениям о характере распре­делений выборок (односторонние тесты — при наличии предположения о смещении распределения

Таблица 1

Методы математической статистики, используемые в клинической практике

Область применения

Метод

параметрический

непараметрический

Описательная

ста­тистика

Вычисление средних значений, среднеквад­ратичных отклонений и др.

Вычисление медиан, квартилей, межквартильного размаха, квантилей и др.

Сравнение двух независимых групп по одному пара­метру

t-Критерий Стьюдента для независимых вы­борок

Критерий Манна-Уитни, критерий х2, точный критерий Фишера и др.

Сравнение двух зависимых групп

по одному парамет­ру

t-Критерий Стьюдента для зависимых выбо­рок

Критерий Вилкоксона, критерий знаков и др.

Анализ взаимосвязи двух параметров

Корреляционный анализ по Пирсону

Корреляционный анализ по Спирмену, Кендаллу и др.

Одновременный анализ трех и более параметров

Регрессионный ана­лиз, дискриминантный анализ, кластер­ный анализ, диспер­сионный анализ

Логистический регрес­сионный анализ, анализ конъюнкций и др.

параметра в одной из групп в определенную сторону относительно другой; двусторонние — при отсутствии такого предположения);

3) зависимости/независимости выборок.

Независимыми считаются, например, группы пациентов, которые были рандомизированы (случайным образом отобраны). Зависимыми являются, например, данные одной и той же группы больных до и после лечения.

Таким образом, для решения задач используют ряд параметри­ческих и непараметрических статистических методов (табл. 1).

Приведенный обзор методов, используемых при решении раз­ных задач, демонстрирует только подход к анализу данных и не претендует на полноту. Более подробно об этих методах можно узнать в соответствующей учебной литературе.