logo search
ИТ в экономике / учебник / Козырев_Информационные технологии в экономике и управлении_2000

Вопросы разработки и внедрения баз данных

Наиболее частыми являются два подхода, используемые при проектировании баз данных: структурный и объектно-ориентированный.

Популярность получил объектный подход, так как это обосновано его преимуществами: возможностью разбить систему на совокупность независимых объектов и далее провести их независимую спецификацию, простотой системы за счет использования принципов наследования и полиморфизма, возможностью объектного моделирования системы. Последнее означает возможность получить представление о разработке с момента начала создания системы.

Объектная модель представления данных отлично подходит для применения при построении корпоративных информационных систем. В распоряжении разработчиков оказываются стандартизованные средства доступа к базам данных стандарта ODMG93.

Различные производители баз данных по-разному используют в своих продуктах достоинства и недостатки объектных баз данных. Даже производители реляционных СУБД, такие как IBM и Oracle, совершенствуют свои СУБД, добавляя объектную надстройку над реляционным ядром. Другой производитель – Informix приобрел РЯД конкурентов и усовершенствовал свою объектно-реляционную СУБД, ставшую универсальным сервером. А компания Computer Associates создала объектную базу Jasmine.

Рост спроса на объектные СУБД выше, чем на реляционные и объектно-реляционные. Если первые демонстрируют динамику роста до 50% в год, то вторые – около 30%. Общий объем продаж объектных СУБД к 2000 г. должен составлять около 1,5 млрд USD.

С точки зрения особенностей моделей данных можно выделить две основные группы: чисто объектные СУБД (pure ODBMS) и СУБД, основанные на модели сохраняемых объектов (persistent storage managers). Первые поддерживают механизмы распределенных баз данных (transparent distributed database capabilities), многопользовательского доступа к БД, имеют встроенные средства разработки и администрирования. СУБД, которые основаны на модели сохраняемых объектов, позволяют сохранять небольшие объекты с их идентификаторами, что ограничивает создание многопользовательских приложений и распределенных систем.

Во всем мире множество компаний разрабатывают и применяют базы данных (БД) в маркетинговых и сбытовых целях, анализа степени использования основных фондов и оборотных средств, управления товарными запасами и т.д. Вот лишь несколько примеров из самых разных областей деятельности [195,196].

Компания Claritas (США) проводит углубленные маркетинговые исследования и создает информационные продукты по многокритериальному описанию различных регионов США. Многочисленные клиенты Claritas, а это фирмы самого разного профиля, закупили лицензию на одну из основных разработок компании – настольную систему маркетингового анализа Compass for Windows. Для использования указанной системы необходимы частные базы данных, содержащие определенный набор демографической, маркетинговой, картографической информации, позволяющей провести рыночный анализ с учетом специфики деятельности фирмы-клиента. Работа по созданию и постоянному обновлению таких информационных продуктов потребовала от компании Claritas перехода к новым методам получения и обработки информации.

До 1996 года база данных компании объемом 120 Гбайт находилась на мэйнфрейме фирмы IBM. При этом был необходим целый штат программистов для извлечения данных из базы, проверки их достоверности и обработки с целью получения новых или обновления существующих информационных продуктов. Обновление могло происходить не чаще одного раза в год и влекло за собой рост числа и объема документации. Для доставки продуктов клиентам осуществлялось ручное копирование данных из файлов хранения.

В 1996-1997 гг. была создана промышленная база данных на сервере Alpha Server 4100 корпорации Digital Equipment с программным обеспечением в виде СУБД Oracle версии 7.3. В дополнение компания Claritas разработала собственное программное средство – внутреннюю клиент-серверную утилиту Auto Trieve, которая позволяет автоматически обновлять информационные продукты. В результате применения новой технологии резко сократились сроки подготовки продуктов. Например, по расчетам специалистов компании, проект, предусматривающий создание 150 частных баз данных (информационных продуктов), может быть выполнен за три дня вместо четырех недель. Новая технология обеспечивает упрощенную поддержку качества данных, так как применены стандарты структур данных в виде метаданных для каждой из 6 млн ячеек информации. В течение 1998 года компания выпустила программный продукт Claritas Connect, который позволит клиентам работать со специализированными киосками данных, размещенными на Web-сервере Claritas.

Американская компания Source Informatics America специализируется на информационном обслуживании фирм-производителей лекарственных препаратов. Закупая информацию в 75% (35 000) аптек страны, компания составляет и предоставляет на платной основе аналитические отчеты о выписке врачебных рецептов при различных заболеваниях, что помогает фирмам-производителям лекарств правильно определять тенденции на рынке. Постоянное расширение рынка потребовало от компании обработки все возрастающих объемов информации, что повысило сроки составления отчетов (более месяца), их трудоемкость, обусловило высокую стоимость для клиентов. Были необходимы новые формы работы и в 1996 году компания Source Informatics приступила к осуществлению дорогостоящего (5 млн USD) проекта разработки специализированной базы данных на 1,5 Тбайт. Реализация аппаратной части проекта происходила с привлечением фирмы Sequent Computer Systems, которая предложила технологию неоднородного доступа к памяти NUMA (Non – Uniform Memory Access) с установкой соответствующей машины – сервера Sequent NUMA – Q2000. В качестве программного обеспечения использовалась система управления базами данных (СУБД) Oracle, а также программные пакеты поиска и обработки данных DDS Agent и DDS Architect фирмы MicroStrategy. Благодаря новой базе данных сроки составления отчетов сократились до нескольких дней. Кроме того, круг клиентов компании существенно расширился не только за счет снижения стоимости информационных услуг, но и потому, что клиенты получили возможность самостоятельного доступа к данным через телефонную сеть. Для пяти фирм-клиентов созданы индивидуальные киоски данных о продажах, расположенные на серверах Alpha корпорации Digital Equipment и связанные с данными основной базы через систему перекрестных ссылок. Недавно компания Source Informatics предложила клиентам услуги по прямому подключению к базе данных из Web-браузеров с помощью программного обеспечения онлайновой аналитической обработки DDS Web фирмы MicroStrategy.

Фирма Randalls Food Markets в 1995 году с большой осторожностью начинала создавать базу данных, сочетающую информацию о товарных запасах с демографическими данными о покупателях и их привязанностях (кто и что покупает). Не существовало четких критериев и оценок эффективности затрат на осуществление проекта. Многобайтная база данных для управления почти 600 категориями продуктов на 80 000 наименований создавалась 6 месяцев на основании СУБД фирмы Informix Software. После внедрения системы менеджеры категорий товаров получили возможность быстрого доступа с настольных персональных компьютеров к информации о наличии товаров и скорости и частоте продаж. За короткое время фирма улучшила состояние складского хозяйства и сумела увеличить сбыт товаров, получив значительную дополнительную прибыль. В фирмах розничной торговли США нарастает тенденция использования баз данных, содержащих информацию о товарных запасах и дополнительные сведения о клиентах.

Специалисты службы маркетинга английской фирмы British Telecommunications (ВТ) обслуживают 1,5 млн клиентов, отвечают ежедневно на 87 млн телефонных звонков по поводу покупки и применения 4,5 тыс. телекоммуникационных продуктов. Естественно, что такой огромный объем данных необходимо упорядочить, систематизировать, использовать с наивысшей эффективностью. Было принято решение о создании базы данных (БД), позволяющей накапливать и анализировать информацию о клиентах по сегментам рынка. Первая примененная в этих целях система IMS (Integrated Marketing System– Интегрированная маркетинговая служба) на основе сервера баз данных Teradata корпорации NCR, способная обрабатывать 650 Гбайт данных, оказалось недостаточно гибкой и эффективной и была заменена на более мощную систему WhiteCross, которая использует технологию массивно-параллельной обработки. Преимущество данной технологии в сравнении с обычными системами, основанными на симметричной многопроцессорной технологии, состоит в значительном повышении производительности за счет создания огромных пространств памяти. Опыт применения системы WhiteCross оказался настолько успешным, что в 1996 году фирма ВТ отказалась от услуг подрядчика по обслуживанию системы и закупила полный комплекс программно-технических средств для работы у фирмы WhiteCross Systems (Англия): была приобретена специализированная машина WhiteCross и средство генерации запросов и отчетов Heat Seeker. В целом, система WhiteCross 9020, используемая фирмой ВТ, оснащена 170 параллельно работающими процессорами и 2,5 Гбайт оперативной памяти. Таблица данных содержит 266 столбцов по 1,8 млн строк. Инструментарий Heat Seeker позволяет сотрудникам служб маркетинга и сбыта анализировать данные и просматривать результаты обработки в специальных графических окнах, максимально облегчает процесс детализации информации, что крайне важно для поиска дополнительных рыночных возможностей. Применение системы WhiteCross позволило фирме ВТ более четко определить ситуацию с рыночным положением отдельных телекоммуникационных продуктов, выявить тенденции в области дорогих заказов, появилась возможность перераспределения ресурсов с целью получения дополнительной прибыли. Отметим, что по оценке специалистов фирмы ВТ система, несмотря на крупные затраты, окупается в 20-50 раз в первый год эксплуатации. В дальнейшем фирма ВТ намечает использование баз данных в области прогностического моделирования ценовой политики в целях упрочения положения на рынке и противодействия конкурентам.

Американская железнодорожная компания Union Pacific создала в 1993 году сводную базу данных, объединив небольшие базы данных, содержащие сведения по различным аспектам деятельности: подвижном составе, перевозкам, учету кадров, бухгалтерской отчетности, оплате счетов и т.д. Была применена система массивно параллельной обработки DBC 1012 NCR корпорации NCR на базе группы серверов NCR WorldMark 5100M и реляционной СУБД Teradata. Емкость базы данных составляет 1,1 Тбайт. Каждый отдел компании Union Pacific применяет базу данных для повышения эффективности деятельности на своем участке работы. Так, отдел транспортировки анализирует использование подвижного состава и формирует отчет по рабочему времени локомотивов. Упорядочение информации о рабочем времени позволило за четыре года сократить время простоев на 39% и получить многомиллионную экономию средств. Благодаря базе данных, связанной со специальным программным обеспечением, компания получала возможность контролировать оплату заказчиком услуг по доставке товара. Имея сведения по каждому вагону, менеджер может давать прямые указания оператору железнодорожного состава о приостановлении разгрузки в случае отсутствия оплаты. Благодаря контролю оплаты компанией получена годовая экономия в размере 1 млн USD. В компании Union Pacific постоянно ведется работа по созданию новых приложений баз данных. В частности, приложение «план рейса» позволит контролировать маршруты и графики движения поездов, эффективность использования различных перегонов пути. Другое приложение позволит заранее выявлять источники возможных аварийных ситуаций и планировать обновление подвижного состава и перекладку путей. Несмотря на то, что компания вносит крупные лицензионные отчисления корпорации NCR (5 млн USD) и несет бремя текущих затрат по эксплуатации системы (содержание 20 сотрудников), в ее руководстве убеждены, что размеры получаемой экономии в ближайшие годы резко возрастут, а годовая сумма возврата инвестиций составит более 35 %.

Существуют примеры использования технологий баз данных фирмами индустрии развлечений. В феврале 1997 года с целью улучшения работы с клиентами казино Harrah's Entertainment Inc. создало и ввело в действие базу данных емкостью 320 Гбайт с размещением на сервере NCR WorldMark 5100 корпорации NCR и использованием динамичной масштабируемой архитектуры (DSA) фирмы Informix Software, а также системы обработки Top End. В каждом из 16 региональных филиалов фирмы установлены компьютеры AS / 400, передающие информацию в базу данных посредством ретрансляции через сеть WINet. База данных содержит сведения о 6 млн клиентов казино и служит средством анализа взаимоотношении с клиентом и получения сведений для проведения с ним определенной маркетинговой компании: сформулировав запрос о постоянных клиентах и установив необычно длительный срок отсутствия некоторых из них, работники казино предпринимают усилия по возврату, вплоть до предоставления бесплатного гостиничного номера и питания. Сегодня, благодаря применению базы данных, возврат клиентов Harrah's возрос на 2 %. Ожидается, что база данных окупится в течение 2-2,5 лет.

По прогнозам, к 2001 году произойдет 50 %-й рост рынка баз данных на основе Windows NT. На рынке СУБД для платформы Windows NT Server лидирует корпорация Microsoft с продуктом MS SQL Server (44 % от числа проданных лицензий), второе место занимает СУБД Oracle (28 % продаж) [81].

В начале 1998 года появилась вторая бета-версия Microsoft SQL Server 7.0. Продукт имеет улучшенную масштабируемость, что позволяет устанавливать его как на портативные компьютеры с Windows 95, 98, так и на симметричные многопроцессорные кластеры, способные обработать массивы данных в несколько Тбайт. Включение в состав продукта специального компонента по управлению данными (Data Transformation Services), а также усовершенствование обработки сложных запросов и наличие режимов интегрированной аналитической обработки повышает эффективность работы с базами данных, в том числе очень большими.

Отметим простоту администрирования и использования системы за счет новых решений: единая консоль управления серверами, наличие сценариев по администрированию и поддержке баз данных, интегрированные средства защиты, участие пользователя (назначение пользовательских задач) в реакции на события в системе и т.д.

Выбор СУБД – сложный процесс, который может состоять из нескольких этапов [5]:

1) выбор языка программирования, составление перечня платформ, которые необходимо поддерживать, уточнение требований к сети, набор гетерогенных операций;

2) определение наивысших требований, которые предъявляются к системе в области поддержки версионности, рабочих групп, схемы развития;

3) оценка отобранных СУБД, основываясь на их технической документации;

4) проведение тестирования с максимальной имитацией особенностей функционирования; моделирование работы большого числа пользователей, требуемое распределение информации в сети, типичные механизмы доступа к данным;

5) проведение дополнительного тестирования для выявления возможностей архитектуры проектируемой системы. На этом этапе анализируется эффективность механизмов обмена между клиентом и сервером, исследуются вопросы, связанные с использованием оперативной и дисковой памяти, влияние операций удаления и повторной загрузки объектов на рост объема базы данных, особенности буферизации обновлений объектов, блокировок и управления транзакциями;

6) оценка качества технической документации и определение наличия квалифицированной службы сопровождения и обучения.