МатМод экология / Лабораторные работы

I. Теоретические сведения.

Пусть имеется некоторое множество G=(G₁, G₂, ... G_n) индивидов (объектов), каждый из которых обладает набором наблюдаемых показателей С=(С₁, С₂, ... С_р). Обозначим x_ij–результат измерения i-той характеристики j-того объекта. Тогда Х- множество векторов измерений объектов. Задача кластерного анализа заключается в том, чтобы на основании данных, содержащихся во множестве Х, разбить множество объектов G на m (m – целое) кластеров (подмножеств) Q₁, Q₂, …, Q_m так, чтобы каждый объект G_j принадлежал одному и только одному подмножеству разбиения и чтобы объекты, принадлежащие одному и тому же кластеру, были сходными, в то время, как объекты, принадлежащие разным кластерам были разнородными.

Для задач кластеризации широко применяются так называемые самоорганизующиеся карты Кохонена – нейронные сети, обучающиеся без учителя. Сеть распознает кластеры в обучающих данных и распределяет данные по соответствующим кластерам. Если дальше сеть встречается с набором данных, непохожим ни на один из известных образцов, она относит его к нового кластеру. Для удобства визуализации нейроны карты Кохонена представляются в виде двумерной сетки и раскрашиваются в зависимости от анализируемого свойства объектов. Входные вектора, в некоторой степени «похожие» друг на друга, будут располагаться на карте Кохонена рядом. Чем меньше мера сходства, тем дальше друг от друга будут располагаться на карте объекты.

Рассмотрим построение карт Кохонена и кластеризацию при помощи их в трех нейропакетах: Excel Neural Package, Deductor и Statistica.

Содержание