logo
КОБРИНСКИЙ (Восстановлен) МИ

3.2. Особенности медицинских данных

Первым шагом, предваряющим собственно статистический анализ, является исследование типа данных, основными из кото­рых являются количественные и качественные.

Качественные данные подразделяются на порядковые, или ран­говые (например, тяжесть проявлений заболевания), и классифи­кационные, или номинальные (например, перенесенные заболе­вания, классы ксенобиотиков). Процедура ранжирования данных, т.е. упорядочивания их в соответствии с числовыми градациями, проводится в возрастающем, либо в нисходящем ряду значений. Число градаций, характеризующих данные, не должно быть из­лишне большим, так как в этом случае увеличивается элемент субъективности.

При обработке данных часто приходится переводить качествен­ные данные в количественные. В свою очередь количественные данные могут подвергаться квантованию в зависимости от постав­ленной задачи (для выделения интервалов, соответствующих раз­личным состояниям, например температура нормальная, субфебрильная, высокая и др.), и тогда они становятся аналогичны ка­чественным шкалированным.

В случае пропусков информации (отсутствующие данные) нельзя использовать так называемое «обнуление», т.е. приписы­вать кодовое число нуль, так как это в большинстве случаев со­впадает с кодированием нормы по данному признаку. Также ме­тодически неверно использовать среднее по классу, особенно при малых выборках, так как классы далеко не всегда являются одно­родными (гомогенными). Предпочтительно исключать такие на­блюдения или кодировать пропущенные данные специальным знаком (числом) при условии, что «обход» таких «значений» пред­усмотрен в программе, т.е. обработка проводится только по изве­стным значениям данных.

В клинической и экспериментальной медицинской практике исследователь реже употребляет слово «данные», но чаще — «па­раметры» или «переменные», ставя между этими понятиями знак равенства.

Нужно отличать понятие «переменная» от понятия «признак»: температура тела — параметр (переменная), температура тела бо­лее 37° С — признак (человек нездоров). Переменные бывают непрерывными и дискретными, в том числе, дихотомическими (принимающими одно из двух значений, например «здоров — болен»).

В клинической практике переменные часто описываются шка­лами. Как было отмечено ранее, шкалы бывают качественными (сознание ясное, спутанное и т.д.), классификационными (цвет кожных покровов — розовые, синюшные, желтушные, характер хрипов в легких — сухие, влажные мелкопузырчатые, крупнопу­зырчатые и т.д.) и количественные, в том числе интервальные, порядковые, балльные.

Интервальные переменные (например, ударный объем, мл: 50 — 80, менее 50, более 80) полезно использовать для решения конк­ретной клинической задачи. Их также можно переводить в поряд­ковые (на основе построения шкал), но лучше (при наличии воз­можности и если это не противоречит смыслу решаемой задачи) использовать собственно количественные значения переменной.

Балльные шкалы получают по-разному: после предваритель­ной математической обработки, на основе чисто клинической оценки параметра, комбинированным способом.

Как правило, затруднения в отнесении параметров к количе­ственным или качественным не возникают. Гораздо сложнее при переводе качественных данных в количественные, когда реально нужно определить «вес» градаций качественного параметра. Не всегда правомерен вариант «в лоб»: 1, 2, 3, 4 и т.д. (но не более девяти значений, исходя из известного закона в области психоло­гии, определяющего пределы способности человека к переработ­ке информации). Часто для получения реальных «весов» парамет­ров необходимо проводить дополнительное исследование.

Особым типом данных являются даты. Бывает, что по смыслу работы с ними приходится производить действия (например, оп­ределять, сколько времени прошло между соседними исследова­ниями), поэтому нужно следить, чтобы они записывались в опре­деленном формате.

Важен вопрос о точности измерения и представления меди­цинских параметров. Понятно, что точность исходных данных оп­ределяется точностью метода и(или) прибора, с помощью кото­рых осуществляется измерение.

В описательной статистике при работе с медицинскими дан­ными необходимо поступать следующим образом: с одной сторо­ны, не допускать потерь информации исходно — использовать данные с той точностью, которая имеет место при измерении; с другой — при представлении результатов статистической обра­ботки данных не приводить избыточной информации — в боль­шинстве случаев достаточно той точности представления инфор­мации, что и в исходных данных, либо использования одного Дополнительного разряда. Обычно при предъявлении числовых данных указываются два знака после запятой. Исключением являются случаи представле­ния констант и весовых коэффициентов функций, полученных в результате многомерного анализа (например, дискриминантного); тогда в результирующих таблицах обязательно должны приводиться все цифры после запятой.

Следует остановиться на еще одной особенности медицинских данных.

В математической статистике выводы основаны на допуще­нии: то, что верно на случайной выборке, верно и для генераль­ной совокупности, из которой она получена.

Генеральная совокупность — это набор данных, описывающих нечто всеобъемлющее, например все дети, живущие на планете Земля, вся совокупность пациентов, которые могли бы получать определенный пре­парат и т. п.

Выборка — часть генеральной совокупности, описывающая ее с той или иной долей погрешности.

Часто сформировать истинно случайную выборку из генераль­ной совокупности не представляется возможным в силу того, что для выполнения требований репрезентативности объекты иссле­дования (пациенты) должны проживать на разных континентах земного шара. Проведение таких исследований в настоящее время возможно, однако в силу существенных физиологических разли­чий между людьми, живущими в разных уголках планеты, может быть потерян клинический смысл исследования. Это утверждение справедливо для достаточно широко распространенных в насто­ящее время международных мультицентровых исследований, по­священных, например, метаболическому синдрому, в которых принимают участие крупные отечественные центры и институты. В таких случаях выборка должна быть репрезентативна к исследу­емой популяции (населению РФ или определенных, этнически сходных, регионов России).

Современная технология статистического анализа данных вклю­чает:

1) постановку задачи и планирование исследования: составле­ние детального плана сбора исходных данных, определение ха­рактера выборки;

2) подготовку данных;

3) выбор методов обработки данных;

4) проведение анализа данных;

5) интерпретацию и представление результатов анализа.

Суть современной технологии обработки медицинских данных с помощью методов математической статистики и их последу­ющей интерпретации кратко изложена в подразд. 3.3 — 3.5.