Проблемы, связанные с использованием Data Mining dm-технологии
Конечно, возможности DM велики, но уже сейчас аналитики предупреждают потенциальных инвесторов, что этот еще не устоявшийся сегмент рынка ПО может быть чрезмерно разрекламирован. Сложность инструментов Data Mining Сложность — существенный барьер для внедрения DM. Существует такое шутливое мнения, что DM — настолько сложная технология, что для ее освоения необходимо иметь три высших образования: одно в области статистики или вычислительных методов, другое в области бизнеса, чтобы понимать клиентов, и еще одно по вычислительной технике. Фактически DM — это результат совместных усилий специалистов во всех трех областях. Управление проектом должны брать на себя бизнес-специалисты, задачей которых является формирование набора бизнес-задач и последующая интерпретация полученных результатов. Разработчик-аналитик, разбирающийся в методах DM , в статистике и инструментах должен создать надежную модель. А специалисты по информационным технологиям обеспечивают обработку данных, а также техническую поддержку. IT-команды увлеклись мифом о том, что средства DM просты в использовании. Предполагается, что достаточно запустить такой инструмент на терабайтной базе данных, и моментально появится полезная информация. На самом деле, успешный DM проект требует понимания сути деятельности, знания данных и инструментов, а также процесса анализа данных. Опытность пользователя DM Различные инструменты DM имеют свои сильные и слабые стороны. Поэтому конкретные программы должны четко соответствовать уровню подготовленности пользователя и его конкретным целям. Кроме того, DM , как правило, подразумевает употребление определенного технического жаргона, который может сильно усложнить для неопытного пользователя понимание работы программы, ее сути, практических результатов, а также того, какой продукт и каким способом лучше всего использовать для достижения определенных бизнес-целей. Это вызывает замешательство, и часто потенциальный клиент может вообще отказаться от использования DM . Еще хуже, если клиент вложит большие средства и пойдет неверным путем или потратит деньги на освоение различных инструментов для того, чтобы, наконец, понять, как нужно было применять DM в данной области деятельности. Если DM применяется неправильно, то это может разорить компанию — использование DM должно быть неразрывно связано с повышением квалификации пользователя». Применение сложных инструментов предъявляет все большие требования к людям, которые необходимы компании, однако специалистов по DM , которые бы хорошо разбирались в бизнесе, очень не много. Извлечение полезных сведений невозможно без хорошего понимания сути данных. Кроме того, во многих случаях необходима тщательная интерпретация тех зависимостей или шаблонов, которые были обнаружены. Поэтому работа с этими средствами требует тесного сотрудничества между бизнес-экспертом и специалистом по инструментам DM . Правильное использование прогнозирующих моделей должно быть грамотно интегрировано в реальные бизнес процессы, с тем, чтобы можно было четко оценивать и обновлять модели. Трудозатраты Результаты DM в большой мере зависят от уровня подготовки данных, а не от „чудесных возможностей“ некоего алгоритма или набора алгоритмов. Успешный анализ требует очищенных и подготовленных данных. По утверждению аналитиков и пользователей очистка клиентских записей, разделение их на поддающиеся обработке, но статистически достоверные образцы, а затем тестирование и уточнение всех результатов, занимает до 80% процентов всего DM-процесса. Таким образом, чтобы заставить технологию работать на себя потребуется много времени. Много усилий тратится на анализ предварительных данных и корректировку прогнозирующих моделей. Неграмотно применив некоторые инструменты, предприятие может бессмысленно растратить свой потенциал, а иногда и миллионы долларов. Высокий процент ложных результатов Инструменты, занимающиеся поиском трудно обнаруживаемых зависимостей в БД, могут раскрыть действительно драгоценные «самородки» информации, которые дадут хорошие дивиденды в плане финансовой и конкурентной выгоды. Но, к сожалению, DM очень часто порождает множество вводящих в заблуждение и не имеющих существенного значения открытий. Многие пользователи и аналитики утверждают, что DM-средства могут выдавать тысячи ложных, статистически недостоверных или бессмысленных результатов. При этом пользователь должен понимать, какие из результатов имеют реальный смысл. Пример: Компания Chase Manhattan, однажды получила неверное значение для среднего баланса нескольких клиентов, пользующихся кредитными карточками. Причина оказалась в том, что данные были некорректно переданы. Неправильная сортировка файлов привела к тому, что в качестве прогнозирующего параметра, определяющего интерес клиентов к планируемой маркетинговой кампании, были выбраны идентификаторы клиентов. Конечно, такой результат не имел никакого смысла. Несоответствие результато в прогнозировани я реально й ситуации Есть одна сложнейшая задача, вставшая перед DM , которую многие эксперты считают неразрешимой и которая оправдывает тот скептицизм, который часто слышен в адрес этой ниши рынка. Средства DM хорошо прогнозируют поведение потребителя на основе данных за прошлые периоды, то есть дают информацию о том, что человек, исходя из его предыдущих приобретений, демографических данных и других параметров, захочет купить с наибольшей вероятностью. Но, по мнению критиков, DM никогда четко не предскажет, что же человек захочет купить на самом деле. Пример. DM-приложение может определить, что 34-х летная домохозяйка, имеющая двоих детей, вероятнее всего каждые три года в ближайшее десятилетие будет покупать отдельную микроволновую печку. Но такое ПО не может определить, что именно эта клиентка скорее купила бы более дорогую печь, где комбинируются микроволновый и конвекционный режимы, если бы та подошла ее по цене. Конфиденциальность Это одно из самых существенных возражений против DM. Сам по себе аналитический DM-процесс применяется к накопленным анонимным данным, при этом выявляются возможности использования, тенденции приобретения и десятки, если не сотни, других факторов. Но вот выполнение следующего этапа обработки данных — попытка связать их с характером поведения конкретного клиента, чтобы извлечь некий личный опыт взаимодействия с этим человеком, — вызывает настороженность среди сторонников прав на неприкосновенность частной жизни. Защитники конфиденциальности говорят о том, как важно быть честными с клиентами и сообщать им о собираемых данных и целях их использования. Директивы кажутся простыми, но на практике их реализация сложна. В целом они звучат так. Директивы:
Именно таким, самым трудным путем, решили пойти поставщики ПО для DM, пропагандируя возможность клиентов выполнять директивы. Использование специальной БД - базы данных Обычно поставщики DM продуктов требуют использования дорогой специализированной БД, витрины данных или аналитического сервера, которые позволят исследовать информацию, прежде всего потому, что для эффективной обработки необходимо привести данные к некоему специальному формату. Чтобы максимально использовать мощность масштабируемых инструментов DM коммерческого уровня, предприятию необходимо выбрать, очистить и преобразовать данные, иногда интегрировать информацию, добытую из внешних источников и установить специальную среду для работы DM алгоритмов. Высокая стоимость Хорошая DM программа обходится в сумму от 500 тыс. до 1,5 млн. долл., которая необходима на программное, аппаратное обеспечение и техническую поддержку. Вкладывая средства в такой проект, необходимо убедиться, что эффективность инвестиций будет достаточно высокой. Неплохой проверкой является небольшой DM-проект (от 100 тыс. до 200 тыс. долл.), который позволит выяснить, достаточно ли того объема и качества данных, которые имеются в наличии, чтобы сделать DM полезным для предприятия. Несмотря на множество рассмотренных недостатков и проблем, связанных с DM , всё больше и больше программных продуктов этого класса находят свое применение. Конкурентные преимущества, которые дает DM , не позволяют игнорировать эту технологию. Но, чтобы получить полезные результаты требуются детальные знания данных и длительные проверки методом «проб и ошибок». Очевидно, что идея, лежащая в основе этой технологии, имеют массу плюсов. А критики заслуживают отдельные методы ее реализации. |
- Области применения ит - информационных технологий
- Современные ит - информационные технологии
- Цели внедрения информационных технологий
- Этапы развития ит (информационных технологий)
- Информационная система
- Общие понятия об информационных системах - ис
- Основные задачи информационных систем - ис
- Пользователи информационных систем - ис
- Процессы в информационных системах - ис
- Система. Общие понятия о системе
- Современные информационные системы - ис
- Этапы развития информационных систем - ис
- Математическое и программное обеспечение информационных систем - ис
- Организационное обеспечение информационных систем - ис
- Правовое обеспечение ис - информационных систем
- Техническое обеспечение информационной системы - ис.
- Принципы и методы создания ис - информационных систем
- Методы и концепции создания ис - информационных систем
- Принципы создания информационных систем - ис
- Классификация информационных систем - ис
- Классификация ис по масштабности применения
- Классификация ис по концепции построения
- Классификация ис по оперативности обработки данных
- Классификация ис по признаку структурированности задач
- Классификация ис по сфере деятельности
- Классификация информационных систем по режиму работы
- Классификация информационных систем по степени автоматизации
- Классификация информационных систем по функциональности
- По квалификации персонала и управления
- По характеру обработки информации
- Аналитические ис репортинга, oltp, data mining
- Общие сведения об аналитических ис репортинга, oltp, data mining
- Базовая аналитическая система
- Классификация по области применения
- Классы аналитических систем
- Перспективы использования аналитических систем
- Применяемые виды анализа
- Системы репортинга
- Рынок систем репортинга
- Oltp - системы оперативной обработки транзакций
- Data Mining (dm) - интеллектуальный анализ данных
- Типы закономерностей
- Классы систем Data Mining - dm
- Алгоритмы ограниченного перебора
- Генетические алгоритмы
- Деревья решений (decision trees)
- Нейронные сети
- Предметно-ориентированные аналитические системы
- Системы для визуализации многомерных данных
- Системы рассуждений на основе аналогичных случаев
- Статистические пакеты
- Эволюционное программирование
- Бизнес-приложения Data Mining
- Банковское дело
- Медицина
- Молекулярная и генная инженерия
- Розничная торговля
- Страхование
- Телекоммуникации
- Проблемы, связанные с использованием Data Mining dm-технологии
- Olap-системы оперативной аналитической обработки данных
- Недостатки olap
- Основные преимущества olap-систем
- Предпосылки и причины появления olap
- Принципы проектирования и использования многомерных бд
- Типы используемых данных
- Многомерная модель данных
- Гиперкубические и поликубические модели данных
- Операции с измерениями
- Требования к olap-средствам
- 12 Основных правил olap- систем по Кодду
- Fasmi Пендса и Крита
- Кубы olap
- Спуск и консолидация
- Члены и метки. Иерархии. Аналитические операции.
- Классификация olap по типу доступа к бд
- Достоинства и недостатки rolap
- Метаданные
- Другие olap. Holap. Dolap. Jolap.
- По месту размещения olap - машин
- Olap-клиент
- Olap-сервер
- Применение olap - систем
- Преимущества и недостатки
- Определение dss (сппр)
- Характеристики dss (сппр)
- Структура сппр
- Бм и субм
- Классификация
- Основные функции субм
- Система управления интерфейсом
- Управление сообщениями. Электронная почта.
- Data Warehouse – хранилище данных - хд - систем обработки данных
- Цели и задачи хранилищ данных
- Концепция хд - хранилища данных
- Единый источник даннх
- Свойства данных
- Структура ис на основе хд
- Методы организации хд
- Data Mart - Витрины данных
- Интегрированное хд - хранилище данных
- Непроектируемые витрины данных
- Система постепенно развиваемых витрин данных
- Data Warehouse Bus - хд с архитектурой шины
- Объединенное (федеративное) хд
- Требования к техническому и программному обеспечению
- Основные компоненты хд
- Проблемы интеграции данных
- Сравнение оперативных и аналитических бд
- Средства и методы построения хд - хранилищ данных
- Применение готовых хранилищ данных
- Студии для построения хд - хранилищ данных
- Подход сверху вниз
- Подход снизу вверх
- Рекомендации по внедрению хд
- Финансовые хранилища данных (хд)
- Хд для управления человеческими ресурсами
- Хранилища данных (хд) в области телекоммуникаций
- Хранилища данных (хд) с возможностями Data Mining и Exploration
- Хранилища данных в области страхования
- Тенденции развития хранилищ данных
- Операции и процедуры
- Функции управления
- Принципы управления
- Информационные технологии и системы управления
- Информационные технологии управления
- Информационные системы управления (ису)
- Виды обеспечений в составе иасу
- Уровни управления
- Ис организационного управления (исоу)
- Ису "Галактика"
- Система управления Парус
- Корпоративные информационные системы - кис
- Определения и назначения кис
- Перспективы развития корпоративных информационных систем (кис)
- Современные корпоративные информационные системы
- Структура корпоративных информационных систем
- Требования к корпоративным базам данных
- Требования к техническому обеспечению кис
- Кис и Internet, Intranet-технологии
- Особенности создания кис на базе Workflow-систем
- Системы управления документами - суд
- Средства обработки бумажных документов
- Мировой рынок корпоративных информационных систем
- Экспертные интеллектуальные ис (информационные системы)
- Структура и типы сии
- Терминология систем искусственного интеллекта
- Эволюция экспертных систем
- Второе поколение экспертных интеллектуальных систем (эис)
- Первое поколение экспертных систем
- Третье поколение экспертных интеллектуальных систем (эис)
- Назначение экспертных интеллектуальных систем (эис)
- Структура экспертных интеллектуальных систем
- База знаний (бз). Правила.
- Интерфейс пользователя - диалог с экспертной системой
- Решатель (интерпретатор, дедуктивная машина)
- Виды знаний в экспертных системах
- Организация знаний в базе данных
- Уровни представления и уровни детальности
- Особенности разработки экспертных интеллектуальных систем
- Технология разработки экспертных интеллектуальных систем
- Основные компоненты ис офисной автоматизации
- Ис управления бизнес-процессами
- Определение вмр( управление бизнес-процессами)
- Примеры использования вмр(Business Performance Management)
- Ис банковской деятельности
- Программно-техническая платформа абс(автоматизированной банковской системы)
- Функциональная структура абс (автоматизированной банковской системы)
- Районный уровень статистичекой службы Украины
- Региональный (областной) уровень статистичекой службы Украины
- Центральный (государственный) уровень статистичекой службы Украины
- Ис в налоговых органах Украины
- Автоматизированная информационная система (аис) «Налоги»
- Ис(информационная система) в страховании
- Функциональные подсистемы аис «Страхование»
- Информационное обеспечение системы страхования
- Ис(информационные системы) управления персоналом
- Функциональная направленность систем управления персоналом
- Эффекты от внедрения hr-систем управления персоналом
- Ис(информационные системы) на основе производственных стандартов
- Эволюция стандартов планирования производства
- Стандарт mrp II (Manufacturing Resource Planning)
- Подробнее об mrp1 - стандарте планирования материальных ресурсов
- Входные элементы mrp-системы
- Основные операции, достоинства и недостатки mrp-системы
- Преимущества и процесс планирования mrp-систем
- Принцип работы mrp-системы и результаты работы
- Требования к производству для успешного внедрения mrp-системы
- Цели и задачи системы-mpr
- Процесс crp(Capacity Requirements Planning)
- Входные данные crp(Capacity Requirements Planning)
- Значение crp(Capacity Requirements Planning)
- Подробнее о mrpii - стандарте планирование производственных ресурсов
- Процессы mprii
- Цели и задачи системы-mprii
- Функциональные блоки mrp II
- Планирование потребностей в сырье и материалах
- Главный календарный план производства
- Инструментальное обеспечение
- Интерфейс с финансовым планированием
- Оценка деятельности ( Performance Measurement ) в mrp II
- Планирование продаж и операций
- Планирование ресурсов распределения
- Управление входным и выходным материальным потоком в mrp II
- Преимущества mprii
- Концепция erp-системы
- Структура erp - системы
- Общая характеристика erp
- Преимущества erp - системы
- Csrp - стандарт(Customer Synchronized Resource Planning) и система
- Современная концепция управления ресурсами csrp
- Преимущества csrp
- Жизненный цикл - общие понятия
- Жизненный цикл изделия (жци)
- Этапы жци
- Классификация данных в связи со стадиями жци
- Маркетинг и исследование жизненного цикла.
- Разработка-производство жц
- Этапы жц промышленных изделий и системы их автоматизации
- Жизненный цикл ис
- Жизненный цикл производственных ис
- Cals-методология поддержки жц ис
- Cals-стратегия
- Cals-технологии
- Базовые принципы cals-технологии
- Безмужаное представление информации
- Виртуальное производство
- Интегрированная информационная среда cals
- Концепция cals
- Параллельный инжиниринг
- Реинжиниринг бизнес-процессов
- Системы cals
- Управление процессами
- Стандарты cals
- Другие стандарты cals
- Стандарт iso 10303 (step)
- Стандарт iso 13584 (p_lib) и семейство стандартов idef
- Применение cals