1 В векторепрототипе также присутствуют в тестируемом векторе
признаков.
||P i E|| / (B+ ||P i || )> ||E|| / (B + d) (1.2)
Если тест на схожесть прошел успешно, выполняется следующий тест,
чтобы проверить вектор признаков и векторпрототип против параметра
внимательности (уравнение 1.3). Задачей данного параметра является
определение размера класса. Если значение параметра велико, образуются
более крупные классы (кластеры с большим количеством данных). При
уменьшении значения создаются кластеры с меньшим количеством данных.
Если параметр внимательности задан Достаточно низким (< 0,1), для
допуска векторы признаков должны соответствовать векторупрототипу.
||P i E|| / ||E|| < p (1.3)
Наконец, если пройден тест на внимательность, алгоритм добавляет
текущий вектор признаков в текущий векторпрототип (уравнение 1.4).
Этот процесс представляет собой простое слияние вектора признаков и
векторапрототипа c помощью операции И. Если тест на внимательность
(или тест на схожесть) не был пройден , проверяется следующий
векторпрототип. Если все векторы прототипы были проверены и при этом
вектор признаков не был помещен в кластер, создается новый
векторпрототип из вектора признаков. Это приводит к формированию
нового кластера, так как рассматриваемый вектор признаков не
соответствует ни одному существующему кластеру.
Р i = Р i Е (1.4)
Теперь алгоритм проходит через все векторы признаков и сравнивает их
со всеми векторамипрототипами.
Создать начальный Выражение 1.1
Векторпрототип
Продолжить для
Каждого вектора
признаков
Выражение 3.2 Выражение 3.3
похож
ли вектор признаков да
на вектор прототип
нет
нет проходит тест
на внимательность?
Да
да
Еще прототипы ?
нет
Поместить вектор
Признаков в текущий Выражение 3.4
Векторпрототип
Хотя все векторы уже размещены по кластерам, проверка необходима. Она
позволяет убедиться в том, что векторы расположены в нужных кластерах.
Дело в том, чт0 последующие тесты векторов признаков могли создать
новые кластеры, поэтом необходимо выполнить дополнительную проверку и
удостовериться, что вектор! Не нужно перемещать в другие кластеры.
После проверки всех векторов признаков, которая не потребовала
дополнительных изменений, процесс формирования кластеров можно считать
завершенным. Чтобы избежать перемещения вектора признаков между двумя
векторами прототипами, алгоритм выполняет несколько итераций, чтобы
объединит кластеры. Количество итераций должно быть достаточно
большим, чтобы избежать преждевременного слияния.
1. 5 Другие области применения
Алгоритм А R Т1 предоставляет возможность классификации данных в отдельные сегменты (кластеры). Классификация может быть
полезна как средство исследования классов (типов) кластеров. Кроме
того, как видно по алгоритму персонализации, изучение членов
отдельного кластера позволяет получить интересную информацию. Данный
алгоритм можно использовать в следующих областях:
· статистике;
· распознавании образов;
· уменьшении диапазона поиска;
· биологии;
· поиске в сети internet ;
· добыче данных .
1.6 Итоги
В данной главе рассматривался простой алгоритм, который группирует
данные в кластеры для системы выдачи рекомендаций. Изначально он
создавался как инструмент, который может использоваться для обработки
данных. Высокая эффективность алгоритма проявляется при обработке
данных в сети internet в коммерческих целях.
Пример алгоритма, представленный в этой главе, очень прост и работает
с небольшим объемом данных. При персонализации в internet данные могут
включать не только отображение содержания Web -страницы, но и время,
которое было потрачено на ее просмотр. Тип и отображение данных
зависят от алгоритма, который выполняет персонализацию. При правильной
кодировке в векторах признаков алгоритм А R Т1 может работать с
широким диапазоном данных, отображающим многие аспекты поведения
покупателя в сети internet .
Несмотря на то, что существует и опасная сторона применения
алгоритмов персонализации, они могут быть очень эффективными
инструментами при сборе самой разнообразной информации.