39. Основные этапы процесса Data Mining, общая схема анализа данных.
Последовательность работы:
1.гипотеза, предположение.
-максимально использовать знание экспертов о предметной области;
-полагаться на здравый смысл;
-отталкиваться от опыта и интуиции специалистов;
-собрать и систематизировать максимум возможных предположений и гипотез.
Отправной точкой является знание и понимание экспертом предметной области. Именно человек является генератором гипотез и предположений, и данный процесс автоматизировать не представляется возможным, по крайней мере, пока. Для генерации идей можно использовать, например, тактику мозгового штурма.
2. сбор и систематизация данных.
-абстрагироваться от существующих информационных систем и имеющихся в наличии данных;
-описать все факторы, возможно влияющие на анализируемый процесс/объект;
-экспертно оценить значимость каждого фактора.
-определить способ представления информации – число, дата, да/нет, категория.
-собрать все легкодоступные факторы, например, из учетных систем.
-обязательно собрать наиболее значимые с точки зрения экспертов факторы;
-оценить сложность и стоимость сбора средних и наименее важных по значимости факторов.
-получение из существующих информационных систем;
-извлечение необходимых сведений из косвенных данных;
-использование открытых источников;
-проведение социологических, маркетинговых и подобных исследований;
- ввод данных «вручную».
Данные должны быть собраны в единую таблицу в формате MSExcel,Dbase, текстовые файлы с разделителями или в набор таблиц в любой реляционной СУБД.
Необходимо унифицировать представление данных – один и тот же объект должен описываться везде одинаково.
Ни в коем случае не ориентироваться на имеющиеся данные. Необходимо отталкиваться от задачи и подбирать данные для ее решения, а не брать имеющуюся информацию и придумывать, что из них можно «выжать». Задача заключается в решении актуальной бизнес задачи, а не в оправдании затрат на сбор большого объема данных.
3. подбор модели.
-уделить большое внимание очистке данных.
-комбинировать методики анализа;
-не гнаться за абсолютной точностью и начать использование при получении первых приемлемых результатов;
-при невозможности получения приемлемых результатов вернуться на предыдущие шаги схемы.
Механизмов построения моделей большое количество. Но каждый из них имеет свои ограничения и решает определенный класс задач, поэтому на практике чаще всего добиваться успеха можно комбинируя методы анализа. Чем раньше будет предпринята попытка оценить полученную модель на практике, тем лучше, т.к. других способов реально оценить ее адекватность не существует.
4. тестирование, интерпретация результатов.
-для оценки полученных результатов использовать знания экспертов.
-тестировать построенные модели на различных выборках для оценки их обобщающих способностей.
-при невозможности получения приемлемых результатов вернуться на предыдущие шаги схемы.
Интерпретация модели, так же как и выдвижение гипотез может и должно делаться экспертом, т.к. только для этого нужно более глубокое понимание процесса, выходящее за пределы анализируемых данных.
Обязательно нужно оценивать обобщающую способность модели, т.е. способность давать приемлемые результаты на данных, которые не предоставлялись системе при построении модели. Некоторые механизмы анализа могут «запоминать» предъявленные ей данные и на них демонстрировать прекрасные результаты, но при этом полностью терять способность к обобщению.
использование.
-при получении приемлемых результатов, начать использование.
-периодически оценивать адекватность модели текущей ситуации. Даже самая удачная модель со временем перестает ей соответствовать.
-постоянно работать над улучшением модели.
Начало использования не является завершением DataMiningпроекта. Работать над совершенствованием моделей нужно всегда, т.к. по происшествии времени обязательно наступит момент, когда опять придется проходить описанный цикл. К тому же после получения первых удовлетворительных результатов встает вопрос о повышении точности.
Данная последовательность шагов не зависит от предметной области. На любом шаге, при возникновении проблем, связанных с ошибочностью результатов, невозможностью получения необходимых данных, неспособностью построения модели и т.п., возможнее возврат на один или несколько шагов назад.
- 1. Суть и этапы управления на предприятии. Особенности их автоматизации.
- 2. Суть и особенности процессного подхода. Описание бизнес-процессов.
- 3. Информационные системы в управлении предприятием и их составляющие. Задачи, решаемые кис.
- 4. Системы управления ресурсами предприятия (erp): назначение, их состав и классификация, история возникновения.
- 5. Задачи erp-систем и их основные функциональные возможности.
- 6. Типовая архитектура erp-систем. Классификация.
- 7. Примеры erp-систем, преимущества, проблемы и этапы их внедрения.
- 8. Особенности, архитектура, преимущества и возможности системы Microsoft Dynamics Axapta.
- 9. Особенности и основные возможности решения «1с:Предприятие» по управлению торговлей.
- 10. Основные модули решения «1с:Предприятие» по управлению торговлей и примеры их использования.
- 11. Основные функциональные возможности приложений по автоматизации складского учета.
- 12. Бизнес-процессы торговой организации: виды и их особенности.
- Раздел 2.
- 13. Суть и особенности online-продаж.
- 14. Online-продажи: безопасность, компоненты, процедура, преимущества и недостатки.
- 15. Основные этапы и особенности открытия и функционирования интернет-магазина в рб.
- 16. Каталоги и интернет-магазины для организации электронных продаж.
- 17. Основные модули и автоматизируемые процессы системы PrestaShop.
- Раздел 3.
- 19. Логические и функциональные блоки crm-систем и их использование.
- 22. Роль и место crm-систем в erp-системах.
- 23. Использование и особенности e-crm. Типовая функциональная структура.
- 24. Структура и основные функциональные возможности Terrasoft crm.
- Раздел 4.
- 25. Виды компьютерной графики. Кодирование графической информации.
- 26. Основные инструменты и структура программы Adobe Photoshop. Примеры использования инструментов.
- 27. Flash-технологии – назначение, особенности и составляющие. Типы анимации во Flash.
- Раздел 5.
- 28. Типовая структура и особенности аналитических информационных систем.
- 29. Понятие и концепция хранилищ данных.
- 30. Модели хранилищ данных и основные компоненты хранилищ данных.
- 31. Технология olap, olap-куб – основные понятия.
- 32. Архитектура olap-систем, таблицы фактов, таблицы измерений. Способы реализации многомерной модели.
- Раздел 6.
- 33. Понятие, задачи Data Mining и связи с другими дисциплинами.
- 34. Методы Data Mining. Визуальные инструменты Data Mining.
- 35. Проблемы и вопросы Data Mining. Области применения.
- 36. Метод «деревья решений».
- 37. Метод «кластеризации».
- 38. Особенности проектов Data Mining, типовая структура аналитических систем.
- 39. Основные этапы процесса Data Mining, общая схема анализа данных.
- 40. Методы эффективной работы с большими данными для Data Mining.
- 41. Deductor – принципы работы и структура платформы. Возможности взаимодействия с другими системами.