ИИС Семенов Н

10.2. Хранилища данных

Для устранения разрозненности, разнотипности, противоречивости данных используется концепция «хранилище данных» (ХД). ХД – предметно-ориентированная, интегрированная, некорректируемая, зависимая от времени коллекция данных, предназначенная для поддержки принятия управленческих решений. ХД должно предложить такую среду накопления данных, которая оптимизирована для выполнения сложных аналитических запросов управленческого персонала. Данные в хранилище не предназначены для модификации. Предметная ориентация означает, что данные объединены и хранятся в соответствии с теми областями, которые они описывают. Интегрированность определяет данные таким образом, чтобы они удовлетворяли требованиям всего предприятия. Некорректируемость заключается в том, что данные в ХД не создаются (поступают из внешних источников), не корректируются и не удаляются. Данные в ХД должны быть согласованы во времени.

При реализации ХД особое значение приобретают следующие процессы: извлечение, преобразование, анализ, представление. При извлечении данные приводятся к единому формату. Источники данных могут быть классифицированы по территориальному, административному расположению, степени достоверности, частоте обновляемости, количеству пользователей, секретности и используемым СУБД. Вся эта информация составляет основу словаря метаданных ХД. Словарь метаданных призван обеспечить корректную периодическую актуализацию ХД.

Инструментальные средства, реализующие аналитические методы анализа и обработки данных, классифицируются по способу представления данных:

ИС, хранящие данные в реляционном виде, но имитирующие многоразмерность для пользователя;
ИС, хранящие данные в многоразмерных базах;
ИС, хранящие данные как в реляционном виде, так и в многоразмерных базах.

Помимо извлечения данных из БД для принятия решений актуален процесс извлечения знаний в соответствии с информационными потребностями пользователя. Если в ЭС основное внимание уделяется проблеме извлечения знаний от экспертов, то в данном случае знания извлекаются из БД.

С точки зрения пользователя в процессе извлечения знаний из БД должны решаться задачи преобразования данных (неструктурированных наборов чисел, символов) в информацию (описание обнаруженных закономерностей), информации в знания (значимые для пользователя закономерности), знаний в решения (последовательность шагов, направленная на достижение информационных потребностей пользователя).

Интеллектуальные средства извлечения знаний из БД позволяют выявить закономерности и вывести правила из них. Эти закономерности и правила можно использовать для принятия решений и прогнозирования их последствий. Существует несколько интеллектуальных методов выявления и анализа знаний: ассоциация, последовательность, классификация, кластеризация и прогнозирование. Ассоциация имеет место в том случае, если несколько событий связаны друг с другом. Если существует цепочка связанных во времени событий, то говорят о последовательности. С помощью классификации выявляются признаки, характеризующие группу, к которой принадлежит тот или иной объект. Кластеризация аналогична классификации, но отличается от нее тем, что сами группы еще не сформированы. С помощью прогнозирования на основе особенностей поведения данных оцениваются будущие значения непрерывно изменяющихся переменных.

Содержание