Практические работы

3.2. Выявление ассоциаций

В Deductor Studio для решения задач ассоциации используется обработчик Ассоциативные правила, в котором реализован алгоритм a priori. Узел требует, чтобы на входе было два поля: идентификатор транзакции и элемент транзакции. Например, идентификатор транзакции – это номер чека или код клиента, а элемент – это наименование товара в чеке или услуга, заказанная клиентом.

ЗАМЕЧАНИЕ

Оба поля (идентификатор и элемент транзакции) должны быть дискретного вида.

В новом проекте в Deductor Studio импортируйте данные из текстового файла Чеки.txt. К узлу импорта добавьте обработчик Ассоциативные правила. Поле ID сделайте идентификатором транзакции, a ITEM – ее элементом (рис. 3.1).

Рис. 3.1. Настройка назначения входных полей для решения задачи ассоциации

На следующем шаге настройте параметры алгоритма a priori (рис. 3.2).

Здесь доступны следующие опции.

Минимальная и максимальная поддержка, % – ограничивают пространство поиска часто встречающихся предметных наборов. Эти границы определяют множество популярных наборов, или частых предметных наборов, из которых и будут создаваться ассоциативные правила.

Минимальная и максимальная достоверность, % – в результирующий набор попадут только те ассоциативные правила, которые удовлетворяют условиям минимальной и максимальной достоверности.

Максимальная мощность искомых часто встречающихся множеств – параметр ограничивает длину k-предметного набора. Например, при установке значения 4 шаг генерации популярных наборов будет остановлен после получения множества 4-предметных наборов. В конечном итоге это позволяет избежать появления длинных ассоциативных правил, которые трудно интерпретируются.

Все настройки оставьте предлагаемыми по умолчанию. Нажатие кнопки Пуск запустит работу алгоритма поиска ассоциативных правил, по окончании которой справа в полях появится следующая информация (рис. 3.3):

Кол-во множеств – число популярных наборов, удовлетворяющих заданным условиям минимальной поддержки и достоверности (93 набора);
Кол-во правил – число сгенерированных ассоциативных правил (найдено 18 правил).

Рис. 3.2. Параметры алгоритма a priori

Рис. 3.3. Процесс выявления ассоциаций

Далее выбираете все доступные специализированные визуализаторы и визуализаторы Таблица и Куб (рис. 3.4).

Рис. 3.4. Доступные визуализаторы

Все эти визуализаторы, кроме Что-если, отображают результаты работы алгоритма в различных формах.

На вкладке Популярные наборы, как следует из названия, в виде списка отображается множество найденных популярных предметных наборов, которые можно отфильтровать и отсортировать. Например, задав в фильтре минимальное значение поддержки 6% и отсортировав записи по ее убыванию, получим следующие 16 популярных наборов (рис. 3.5).

На вкладке Дерево правил предлагается еще один удобный способ отображения множества ассоциативных правил. При построении дерева по условию на первом (верхнем) уровне находятся узлы с условиями, а на втором – узлы со следствием. В дереве, построенном по следствию, наоборот, на первом уровне располагаются узлы со следствием.

Справа от дерева расположен список правил, построенный по выбранному узлу дерева (рис. 3.6).

Для каждого правила отображаются поддержка и достоверность. Если дерево построено по условию, то вверху списка находится условие правила, а список состоит из его следствий. Тогда правила отвечают на вопрос: что будет при таком условии?

Если же дерево построено по следствию, то вверху списка отображается следствие правила, а список состоит из его условий. Эти правила отвечают на вопросы: что нужно для того, чтобы получилось заданное следствие, или какие товары нужно продать для того, чтобы продать товар из следствия?

Рис. 3.5. Популярные наборы с поддержкой более 6 %

Рис. 3.6. Дерево ассоциативных правил

Содержание