logo
МатМод экология / Лабораторные работы

III. Проектирование карты Кохонена в пакете Deductor.

Рассмотрим ту же задачу, что была решена в пакете Excel Neural Package: имеется база данных районов РТ с показателями за текущий период. Необходимо провести их кластеризацию за ИЮНЬ месяц, т.е. выделить однородные группы районов на основе показателей из базы данных, всего показателей - 4. Исходная таблица находится в файле "Районы.xls".

Запустим программу Deductor. Сначала импортируем данные из xls-файла в среду аналитического пакета, нажав на кнопку «Импорт» . Затем в диалоговом окне «Мастер импорта» выберем тип импортируемого файла – Excel:

Рис. 5. 22.

Следуя подсказкам мастера, импортируем файл Районы.xls:

Рис. 5. 23.

Все столбцы таблицы, кроме названий районов, будут являться входными:

Рис. 5. 24.

Импортируемые данные представим в виде таблицы:

Рис. 5. 25.

Рис. 5. 26.

Далее запускаем мастер обработки и выбираем из списка метод обработки "Карта Кохонена".

Рис. 5. 27.

Далее следует настроить назначения столбцов, т.е. для каждого столбца выбрать одно из назначений: входное, выходное, не используется и информационное. Так как мы уже настраивали эти значения при импорте, оставляем все без изменений: поле «Районы» - информационное, поля «Оплата», «Долг», «Недопоставки», «Субсидии» - входные.

Рис. 5. 28.

Следующий шаг предлагает разбить исходное множество на обучающее, тестовое и валидационное. По умолчанию,программа предлагает разбить множество на обучающее - 95% и тестовое - 5%.

Рис. 5. 29.

На следующем шаге предлагается настроить параметры карты: количество ячеек по Х и по Y их форму (шестиугольную или четырехугольную).

Рис. 5. 30. Настройка параметров карты Кохонена

Далее на шаге "Настройка параметров остановки обучения", проиллюстрированном на рис., устанавливаем параметры остановки обучения и устанавливаем эпоху, по достижению которой обучение будет прекращено.

Рис. 5. 31. Настройка параметров остановки обучения

На следующем шаге настраиваются другие параметры обучения: способ начальной инициализации, тип функции соседства. Возможны два варианта кластеризации: автоматическое определение числа кластеров с соответствующим уровнем значимости и фиксированное количество кластеров (определяется пользователем). Поскольку нам неизвестно количество кластеров, выберем автоматическое определение их количества.

Рис. 5. 32. Настройка параметров обучения

Далее запускаем процесс обучения сети - необходимо нажать на кнопку "Пуск" и дождаться окончания процесса обучения. Во время обучения можно наблюдать изменение количества распознанных примеров и текущие значения ошибок.

Рис. 5. 33.

По окончании обучения в списке визуализаторов выберем "Карту Кохонена" и визуализатор "Что-если". На последнем шаге настраиваем отображения карты Кохонена.

Рис. 5. 34. Настройка отображений карты Кохонена"

Укажем отображения всех входных столбцов, кластеров, а также поставим флажок "Границы кластеров" для четкого отображения границ.

Рис. 5. 35.

Карты входов

При анализе карт входов рекомендуют использовать сразу несколько карт.

Рис. 5. 36. Карты четырех входов

На одной из карт выделяем область с наибольшими значениями показателя. Далее имеет смысл изучить эти же нейроны на других картах.

На первой карте, отображающей оплату в районах, наибольшие значения имеют объекты, расположенные в правом верхнем углу. Рассматривая одновременно четыре карты, мы можем сказать, что эти же объекты имеют наибольшие значения показателя, изображенного на четвертой карте - субсидии. Долги же и недопоставки в районах этого кластера низкие. То есть, районы, попавшие в этот кластер, характеризуются как благоприятные.

Это лишь фрагмент вывода, который можно сделать, исследуя карту.

На следующем рисунке приведена иллюстрация карты кластеров. Здесь мы видим сформированные кластеры, каждый из которых выделен отдельным цветом.

Рис. 5. 37. Карта кластеров

Для нахождения конкретного объекта на карте необходимо нажать правой кнопкой мыши на исследуемом объекте и выбрать пункт "Найти ячейку на карте". Выполнение этой процедуры показано на рис. . В результате мы можем видеть как сам объект, так и значение того измерения, которое мы просматриваем. Таким образом, мы можем оценить положение анализируемого объекта, а также сравнить его с другими объектами.

Рис. 5. 38. Ячейка на карте

В результате применения самоорганизующихся карт многомерное пространство входных факторов было представлено в двухмерном виде, в котором его достаточно удобно анализировать.

Районы были классифицированы на 7 групп, для каждой из которых возможно определение конкретных характеристик, исходя из раскраски соответствующих показателей.