3.3. Подготовка, предварительный анализ информации и выбор методов обработки данных
Рассмотрим пример из клинической дисциплины.
Постановка задач и планирование исследования. Предпочтительным вариантом является строгий подход, когда до проведения исследования есть полная ясность, для чего предпринимается работа, сколько и каких исследований будет осуществлено, какие методы и почему будут применяться для обработки полученного материала. Это позволяет оптимизировать усилия исследователя и затраты ресурсов.
Данный вариант исследования не исключает использования (целиком или частично) ретроспективных данных (собранных ранее и имеющихся в медицинской документации). В принципе нужно помнить, что в этом случае исследователя подстерегает еще одна «ловушка», связанная с различным толкованием симптомов. Это же может иметь место и при проспективном исследовании с участием группы врачей, особенно придерживающихся различных научных школ. Поэтому помимо списка признаков, характеризующих заболевание, необходимо иметь их стандартные описания. Это в значительной степени позволит избежать различий в толковании одних и тех же симптомов. Однако в клинической практике до сих пор достаточно часто сначала получают данные, а уже затем клиницист решает, каким образом на имеющемся материале получить некий обобщающий результат.
Подготовка данных. Данные для статистического анализа принято готовить в виде таблицы (таблиц). Современные статистические пакеты работают с данными наиболее распространенных в настоящее время форматов, в том числе .dbf и .xls.
В строки таблицы заносятся объекты исследования (например, пациенты), а в столбцы — параметры. Если конкретное значение параметра отсутствует, клетку таблицы оставляют пустой. Если значение параметра равно нулю, оно все равно обязательно вносится. Если пациенты обследовались в динамике, т.е. по каждому больному есть несколько «срезов» параметров, обычно вводится дополнительный столбец, однозначно определяющий для конкретного больного (и соответственно — значений параметров) время исследования (например, номер хирургических суток). Таблицы данных включают в себя столбец (столбцы) группирующих параметров (например, номер группы, исход заболевания, если именно по нему будут исследоваться пациенты, и т.д.).
После занесения данных в таблицу необходимо их проверить: просматривают значения параметров, выявляют те из них, которые сильно отличаются от остальных. Это могут быть как реальные «выпадающие» значения, так и ошибки ввода, которые необходимо устранить.
Перенос (импорт) данных в статистический пакет затруднений не вызывает. Для этого пользуются стандартными возможностями буфера обмена ОС Windows. Можно также применять специальные модули статистических пакетов, например модуль «Управление данными» (Data management) пакета Statistica.
Современные статистические пакеты дают возможность управлять данными: часто при решении задач возникает необходимость объединения или разделения файлов (содержащих таблицы) по условию.
Выбор методов анализа и их реализация. Для грамотного выбора метода обработки данных необходимо знать характер распределения используемых переменных, поэтому предварительный анализ данных начинают с определения характера их распределения.
Распределение элементов выборки по значениям параметра — это совокупность частот встречаемости интервалов его значений в данной выборке. К наиболее часто встречающимся видам распределений относятся: колоколообразное (нормальное, гауссово), полимодальное (чаще — бимодальное), равномерное и др.
К основным характеристикам распределения относятся:
среднее арифметическое (М) — при непрерывных числовых типах параметров; все значения по выборке сложить и поделить на их количество;
медиана — значение параметра, делящее распределение параметра пополам; выборка значений параметра ранжируется (по возрастанию или убыванию); если число значений нечетно, то медиана — это центральное значение, если число значений четно, то медиана — это среднее арифметическое двух центральных значений;
квантили (центили) — весь диапазон значений разбивается на 10 интервалов. Границы между интервалами — квантили, от 10%-го до 90%-го квантиля укладываются 80 % значений;
квартили — весь диапазон разбивается на четыре интервала: 50%-й квартиль — медиана, кроме нее часто указываются 25%-й и 75%-й квартили, т.е. описывается 50 % наиболее «близких к центру» значений;
мода — значение параметра с наибольшей частотой встречаемости на выборке;
асимметрия — характеристика несимметричности распределения элементов выборки относительно среднего арифметического. В случае симметричного распределения значение асимметрии равно нулю.
В медицинских публикациях часто встречается запись значений в виде М± т, где т — стандартная ошибка среднего (standard error of mean). Это допустимо делать в случае нормально распределенного параметра, а к величине т нужно относиться с определенной долей скептицизма. Правда, при увеличении выборки распределение параметра достаточно часто стремится к квазинормальному, и тогда использование т в какой-то мере оправдано. Лучше указывать само выборочное стандартное отклонение (среднее квадратичное отклонение — standard deviation — s), которое характеризует ширину нормального распределения. Основанием для такого подхода является то, что s не уменьшается при увеличении числа наблюдений п; в диапазон М ± s укладывается около 70% значений нормального распределения параметра.
Параметрические методы. Для решения многих клинико-научных задач необходимо формулировать статистические гипотезы. Среди них можно назвать анализ соответствия распределения значений параметра определенному закону, сравнение групп по характеристикам распределения параметров и др.
Статистическая гипотеза — это формально строго сформулированное предположение.
Нулевой (Н0) называют гипотезу, которую исследователь предполагает отклонить (например, об отсутствии различий между группами).
Альтернативная гипотеза (Н1) противоположна нулевой (например, о наличии различий между группами).
Уровень статистической значимости (а) — это пороговое значение для ошибочного отклонения верной нулевой гипотезы (ошибки первого рода). В медицине принято выбирать а = 0,05 или а = 0,01.
Ошибка второго рода — это ошибочное принятие ложной нулевой гипотезы.
В настоящее время в публикациях принято указывать реальное значение р (вероятность ошибки первого рода). Если значение р меньше 0,05, говорят о наличии статистически значимых отличий между выборками параметра.
Статистически значимые различия следует отличать от клинически значимых. Встречаются результаты, значимые статистически, но не значимые с клинической точки зрения, бывает и наоборот. Клинически значимые, но статистически незначимые результаты обычно получаются на малых выборках, а при увеличении выборок они, как правило, подтверждаются и статистически.
Чем распределения отличаются с практической точки зрения? Тем, что наиболее распространенные методы параметрической статистики (например, t-критерий Стьюдента) можно применять только для нормально распределенных величин (колоколообразных распределений). Неправомочное использование t-критерия Стьюдента — самая часто встречающаяся ошибка статистической обработки данных клинических исследований, приводящая к ошибочным выводам.
Непараметрические методы. В клинической медицине и при обработке данных медико-биологических экспериментов в большинстве случаев необходимо пользоваться непараметрическими методами статистического анализа. Они являются менее мощными, чем параметрические, но применимы для любых видов распределений.
Анализ характера распределения данных (его еще называют проверкой на нормальность распределения) осуществляется по каждому параметру. Для проверки на нормальность используют как визуализирующие методы (метод построения гистограмм), так и статистические (например, тест Колмогорова—Смирнова, критерий Шапиро—Уилкса). Для того чтобы уверенно судить о соответствии распределения параметра нормальному закону, необходимо, чтобы выборка была достаточно многочисленной (не менее 50 значений).
Кроме разделения по уже описанному важнейшему статистическому подходу (параметрические, непараметрические) методы статистического анализа данных принято классифицировать несколькими способами:
1) по количеству одновременно анализируемых параметров (одномерные, двухмерные, многомерные или многофакторные);
2) имеющимся исходно предположениям о характере распределений выборок (односторонние тесты — при наличии предположения о смещении распределения
Таблица 1
Методы математической статистики, используемые в клинической практике
Область применения | Метод | |
параметрический | непараметрический | |
Описательная статистика | Вычисление средних значений, среднеквадратичных отклонений и др. | Вычисление медиан, квартилей, межквартильного размаха, квантилей и др. |
Сравнение двух независимых групп по одному параметру | t-Критерий Стьюдента для независимых выборок | Критерий Манна-Уитни, критерий х2, точный критерий Фишера и др. |
Сравнение двух зависимых групп по одному параметру | t-Критерий Стьюдента для зависимых выборок | Критерий Вилкоксона, критерий знаков и др. |
Анализ взаимосвязи двух параметров | Корреляционный анализ по Пирсону | Корреляционный анализ по Спирмену, Кендаллу и др. |
Одновременный анализ трех и более параметров | Регрессионный анализ, дискриминантный анализ, кластерный анализ, дисперсионный анализ | Логистический регрессионный анализ, анализ конъюнкций и др. |
параметра в одной из групп в определенную сторону относительно другой; двусторонние — при отсутствии такого предположения);
3) зависимости/независимости выборок.
Независимыми считаются, например, группы пациентов, которые были рандомизированы (случайным образом отобраны). Зависимыми являются, например, данные одной и той же группы больных до и после лечения.
Таким образом, для решения задач используют ряд параметрических и непараметрических статистических методов (табл. 1).
Приведенный обзор методов, используемых при решении разных задач, демонстрирует только подход к анализу данных и не претендует на полноту. Более подробно об этих методах можно узнать в соответствующей учебной литературе.
- Введение
- Медицинская инфоматика как наука
- 1.1. Исторический обзор
- 1.2. Основные понятия медицинской информатики
- 1.3. Место медицинской информатики в здравоохранении
- Глава 2 стандартные прикладные программные средства в решении задач медицинской информатики
- 2.1. Применение текстового редактора в медицинских задачах
- 2.2. Применение электронных таблиц при работе с медицинскими данными
- 2.3. Возможности систем управления базами данных при построении информационных систем
- Глава 3 компьютерный анализ медицинских данных с использованием методов математической статистики
- 3.1. Программные средства математической статистики
- 3.2. Особенности медицинских данных
- 3.3. Подготовка, предварительный анализ информации и выбор методов обработки данных
- 3.4. Использование методов математической статистики для анализа данных
- 3.5. Интерпретация и представление полученных результатов
- Глава 4 телекоммуникационные технологии и интернет-ресурсы для медицины и здравоохранения
- 4.1. Понятие телемедицины
- 4.2. Этапы становления российской телемедицины
- 4.3. Телеконсультирование, теленаблюдение и телепомощь
- 4.4. Дистанционное обучение
- 4.5. Медицинские ресурсы сети интернет
- Глава 5 информационные медицинские системы
- 5.1. Классификация информационных медицинских систем
- 5.2. Общие требования к информационным медицинским системам
- 5.3. Значение стандартов в создании и обеспечении взаимодействия информационных медицинских систем
- 5.4. Организационное и правовое обеспечение функционирования информационных медицинских систем
- Глава 6 информационная модель лечебно-диагностического процесса
- 6.1. Основные составляющие лечебно-диагностического или оздоровительно-профилактического процесса
- 6.2. Процесс деятельности медицинского работника как объект информатизации
- 6.3. Моделирование и использование моделей в медицине
- Глава 7 поддержка лечебно-диагностического процесса методами кибернетики и информатики
- 7.1. Медико-технологические системы и их особенности
- 7.2. Автоматизированные системы для обработки медицинских сигналов и изображений
- 7.3. Автоматизированные системы для консультативной помощи в принятии решений
- 7.3.1. Автоматизированные системы для распознавания патологических состояний методами вычислительной диагностики
- 7.3.2. Автоматизированные консультативные системы для помощи в принятии решений на основе интеллектуального (экспертного) подхода
- База знаний
- 7.3.3. Автоматизированные гибридные системы для консультативной помощи в принятии решений
- 7.4. Автоматизированные системы для управления жизненно важными функциями организма
- Глава 8 автоматизированное рабочее место медицинского работника
- 8.1. Основные функции автоматизированного рабочего места медицинского работника
- 8.2. Классификации автоматизированных рабочих мест в здравоохранении
- 8.3. Особенности интеллектуальных автоматизированных рабочих мест
- 8.4. Специализированные рабочие места
- 8.5. Автоматизированные рабочие места и современные информационно-компьютерные технологии
- Глава 9 информационно-технологические системы
- 9.1. Построение и основные функции информационно-технологических систем
- 9.2. Поддержка процесса обследования и лечения в информационно-технологических системах
- 9.3. Информационно-технологические системы диспансерного наблюдения
- 9.4. Электронная история болезни
- 9.5. Информационно-технологические системы отделений лечебных учреждений
- 9.6. Регистры (специализированные информационно-технологические системы)
- 9.7. Права доступа к информации и конфиденциальность медицинских данных
- Глава 10 автоматизированные информационные системы лпу
- 10.1. Концепции разработки информационных систем лечебных учреждений
- 10.2. Функциональное назначение учрежденческих систем
- 10.3. Общие принципы построения автоматизированных информационных систем лпу
- 10.4. Уровни автоматизации современных лечебно-профилактических учреждений
- 10.5. Технологические решения
- Глава 11 информационные системы территориального уровня
- 11.1. Структура и функции медицинских информационных систем территориального уровня
- 11.2. Информационно-аналитические и геоинформационные системы в поддержке принятия управленческих решений
- 11.2.1. Информационно-аналитические системы
- 11.2.2. Географические информационные системы
- Глава 12 системы федерального уровня и мониторинга здоровья населения
- 12.1. Цели и задачи информационных медицинских систем федерального уровня
- 12.2. Принципы и место компьютерного мониторинга здоровья населения в общей системе здравоохранения
- 12.3. Федеральные системы мониторинга состояния здоровья
- Федеральная база данных
- Федеральная база данных
- 12.4. Интеграция информационных систем различных служб и уровней оказания медико-социальной помощи
- Федеральная имс
- Глава 13 перспективы перехода к электронному здравоохранению
- 13.1. Понятие электронного здравоохранения
- 13.2. Принципы построения единого информационного пространства
- 13.3. Подходы и первый опыт электронного здравоохранения
- 13.4. Возможности электронного здравоохранения
- Заключение: медицинская информатика в системе оказания помощи населению
- Оглавление