logo
ммпур методичка

Общая схема постановки и решения задачи Анализ данных с целью выбора постановки и метода решения

1. Анализ целесообразности кодировки исходных данных. Если исходные данные легко делятся на группы, то их можно кодировать без ущерба информативности (рис. 5.1). Кодировать нецелесообразно, если исходные данные плохо делятся на группы (рис. 5.2).

2. Анализ полноты и качества информации

а) при отсутствующих измерениях необходимо добавить измерения, проведенные дополнительно;

б) рассмотреть вопрос об исключении из МО объекты, имеющие большое количество пропусков;

в) рассмотреть возможность восстановления пропущенных значений путем вычисления (существует много способов заполнения; можно заполнить средним значением, можно опираться на закон распределения).

3. Анализ зависимости свойств, т.е. как с изменением одного меняется другое свойство, с целью минимизации признакового пространства.

4. Анализ расположения объектов в пространстве свойств. Для этого необходимо пере описать исходное пространство до двухмерного и в этом пространстве рассмотреть расположение объектов.

Например, для случая, изображенного на рис. 5.3, может быть применен алгоритм распознавания Голотип-N, для рис. 5.4 — алгоритм Энтропия, для рис. 5.5 — алгоритм Дискриминантная функция, для рис. 5.6 — алгоритмы Дискриминантная функция (но с большим количеством ошибок) или Голотип-N.

Типы расположения объектов:

5. По выбранному алгоритму идет решение задачи.

6. Анализ качества результатов. Для анализа качества алгоритма надо выбрать несколько объектов из МО и сформировать из них МЭ (это могут быть самые «непростые» объекты). Проверяем качество решающего правила. Это правило должно выполнятся при минимуме ошибок 1-го и 2-го рода. Минимум — это фиксированное число, заданное при постановке задачи (например, минимум ошибок приблизительно равен 10%). Если качество алгоритма нас не устраивает, то необходимо возвратится назад к анализу данных, а иначе переходим к материалу распознавания.

7. Интерпретация результатов, т.е. перевод полученных результатов на язык предметной области.

Если результат не устраивает, то возвращаемся к предметной задаче (ее можно сформулировать по разному). Главный этап формализации — формирование исходных данных и построение ТОС.