logo
2014 учебное пособие ИТ в Менеджменте

5.1 Базы данных и хранилища данных

Часто в речи мы подменяет слово «информация» словом «данные». Между данными и информацией действительно существует тесная связь. Существование одного без другого невозможно. Слово «данные» происходит от слова data – означает факт, а «информация» от слова informatio - означает разъяснение, изложение, сведения.

Преобразование «информация – данные»

Взаимосвязь данных, информации и знаний в процессе принятия решений представлена на рис. 21.

Рис. 21 Взаимосвязь данных, информации и знаний

Данные - это совокупность неких сведений о событиях и явлениях в виде слов, цифр, символов, рисунков, предназначенная для их хранения, передачи, размножения и дальнейшей обработки. Данные – это основа информации. Арифметическая и логическая обработка данных позволяет получить информацию.

Информация появляется в результате обработки данных при решении конкретных задач – это результат преобразования данных. Данные не измеримы, т.к. если мы начинаем их измерять, то значит мы их начинаем обрабатывать, а, следовательно, они превращаются в информацию. В базе данных сохраняются именно данные, а не информация. Но когда к базе данных поступает определенный запрос, то система управления базой данных выдает по запросу требуемую информацию, а не данные.

Но информация тоже может стать данными, если потребуется ее дальнейшая обработка для другого процесса. Тогда будет получена новая информация, которая при необходимости может снова стать данными и т.д.

Правда существуют и другие определения информации, не связанные с процессами преобразования «информация – данные». Например, информация – это сведения, передаваемые одними людьми другим людям устным, письменным или другим способом, а также сам процесс передачи или получения таких сведений.

Последней стадией преобразования информации, прошедшей многократную обработку и анализ, являются знания. Знания – это зафиксированная и проверенная опытным путем и практикой обработанная (иногда многократно) и проанализированная информация, которую можно многократно использовать для принятия решений. Такой вид информации хранят не в базе данных, а в базе знаний.

Знания бывают формальные и неформальные. Формальные знания могут быть описаны в виде документов, стандартов, регламентов, инструкций. Неформальные знания – не могут быть описаны в виде документов, это опыт специалистов в определенной предметной области.

Знания = факты + убеждения + правила

Аналитическая информация – это информация, основанная на анализе (разложение на составляющие) реальных событий и ситуаций в различных областях деятельности человека.

Принятие решения осуществляется на основе полученной и проанализированной информации и имеющихся знаний. Принятие решений – это выбор наилучшего варианта решения из множества альтернативных на основании имеющейся информации.

Данные обрабатываются на основании имеющихся у сотрудников знаний, полученная таким образом информация анализируется также с помощью имеющихся знаний. С использованием знаний проводится и анализ информации, и выдвижение альтернатив, и принятие наилучшего решения. Результат решения пополняет знания эксперта, обогащает его опыт.

База данных — совокупность логически связанных данных, хранимая особым образом и предназначенная для удовлетворения информационных потребностей организации. Локальные базы данных содержат огромное количество информации, абсолютно не нужной для анализа (адреса, почтовые индексы, идентификаторы записей и др.).

База Данных (БД) — структурированный организованный набор данных, описывающих характеристики каких-либо систем.

Системы Управления Базами Данных (СУБД) — программное обеспечение, предназначенное для организации и ведения базы данных. Для обращения к информации, содержащейся в БД используют системы управления БД (СУБД), которые с помощью специальных языков запросов (например, SQL) могут работать с информацией.

Началом любого анализа является получение исходной информации. Эксперт выдвигает гипотезы и отбирает факторы, влияющие на анализируемый процесс. Простейшая организация хранения информации в организации представлена на рис. 22.

Рис. 22 Организация хранения данных в организации

Характерной чертой такой архитектуры является то, что анализ осуществляется с использованием данных из оперативных систем.

Преимущества:

Недостатки:

На предприятиях в качестве источника информации все чаще стали использовать корпоративное специализированное хранилище данных, агрегирующее всю необходимую для анализа информацию. Хранилище содержит исторические данные, или зависимый от времени набор данных.

В 1991г. Билл Инмон определил хранилища данных как "предметно-ориентированные, интегрированные, неизменные, поддерживающие хронологию наборы данных, организованные для целей поддержки управления, призванные выступать в роли единого и единственного источника истины, обеспечивающего менеджеров и аналитиков достоверной информацией, необходимой для оперативного анализа и принятия решений".

Хранилище данных (ХД)DATA WAREHOUSES (DW) – это совокупность информационно-технологических и программно-технических средств и методов, обеспечивающих единую среду хранения корпоративных данных, оптимизированных для выполнения аналитических операций. Информационные хранилища предназначены для обработки больших объемов данных в режиме реального времени. Хранилища используют для принятия тактических и стратегических решений. К информационному хранилищу присоединяют программные продукты, основанные на интеллектуальной основе.

Принципы организации и особенности хранилищ данных:

  1. Хранилища данных содержат информацию, собранную из нескольких оперативных баз данных. Данные, описывающие определенные области, объединяют в категории. Т.е. информационные хранилища имеют предметную ориентацию и строятся с учетом предметной ориентации данных.

  2. В Хранилищах данные разделяются еще и по предназначению: отдельно данные, используемые для обработки, отдельно данные, используемые для анализа.

  3. Данные в Хранилище данных поступают из нескольких источников. При хранении они не изменяются, не удаляются, только накапливаются.

  4. Хранилища по размеру значительно больше оперативных баз данных (размер хранилища обычно имеет объем от сотен гигабайт до нескольких терабайт).

  5. Хранилища данных создаются специально для приложений поддержки принятия решений и предоставляют накопленные за определенное время, сводные и консолидированные данные, которые более приемлемы для анализа, чем детальные индивидуальные записи.

  6. Хранилища данных жестко зависят от времени. Они четко привязываются к определенному промежутку времени. Иначе данные не будут достоверными.

  7. Интеграция ранее разъединенных детализированных данных (исторические архивы, данные из традиционных систем обработки документов, разрозненных баз данных, данные из внешних источников) в едином хранилище данных.

  8. Информационные хранилища представляет собой базу данных с иерархической файловой системой хранения и миграцией данных. Информационные хранилища размещаются на серверах и библиотеках – автоматах.

Двухуровневое хранилище данных (см. рис.23) строится централизованно для предоставления информации в рамках компании. Для поддержки такой архитектуры необходима выделенная команда профессионалов в области хранилищ данных.

Рис. 23 Организация двухуровневого хранилища данных

Такая организация хранения данных требует от компании полного согласования всех процессов обработки и преобразования данных.

Преимущества:

Недостатки:

Рис. 24 Расхождения в требованиях к хранению данных в БД и ХД.

В базе данных хранятся только последние значения какой-либо информации (например, текущее значение счета клиента, текущее значение имени и параметров клиента). В хранилище данных будет содержаться не только текущая информация, но и вся историческая, ретроспективная информация с предысторией и уточнениями и обязательно с указанием периода или момента времени, когда те или иные данные были актуальны.

Несмотря на обилие данных, возможностей их сбора и хранения, организации до сих пор испытывают серьезный недостаток в информации, необходимой для принятия решений.

Существующие системы сбора и обработки корпоративных данных в принципе не пригодны для использования в ППР. Данные разнотипны и распределены как внутри организации, так и за ее пределами. Лицам, принимающим решения (ЛПР) и аналитикам приходится принимать решения не только в условиях неполной, но и зачастую недостоверной и противоречивой информации. К тому же не всегда удается получить требуемую информацию во время и в наглядном виде. В результате - неудачные решения.

Почему не принято использовать традиционные БД в процессе принятия решений?