logo search
МатМод экология / Лабораторные работы

I. Теоретические сведения.

Пусть имеется некоторое множество G=(G1, G2, ... Gn) индивидов (объектов), каждый из которых обладает набором наблюдаемых показателей С=(С1, С2, ... Ср). Обозначим xij результат измерения i-той характеристики j-того объекта. Тогда Х- множество векторов измерений объектов. Задача кластерного анализа заключается в том, чтобы на основании данных, содержащихся во множестве Х, разбить множество объектов G на m (m – целое) кластеров (подмножеств) Q1, Q2, …, Qm так, чтобы каждый объект Gj принадлежал одному и только одному подмножеству разбиения и чтобы объекты, принадлежащие одному и тому же кластеру, были сходными, в то время, как объекты, принадлежащие разным кластерам были разнородными.

Для задач кластеризации широко применяются так называемые самоорганизующиеся карты Кохонена – нейронные сети, обучающиеся без учителя. Сеть распознает кластеры в обучающих данных и распределяет данные по соответствующим кластерам. Если дальше сеть встречается с набором данных, непохожим ни на один из известных образцов, она относит его к нового кластеру. Для удобства визуализации нейроны карты Кохонена представляются в виде двумерной сетки и раскрашиваются в зависимости от анализируемого свойства объектов. Входные вектора, в некоторой степени «похожие» друг на друга, будут располагаться на карте Кохонена рядом. Чем меньше мера сходства, тем дальше друг от друга будут располагаться на карте объекты.

Рассмотрим построение карт Кохонена и кластеризацию при помощи их в трех нейропакетах: Excel Neural Package, Deductor и Statistica.