logo search
стоэи

40. Методы эффективной работы с большими данными для Data Mining.

Во многих компаниях, особенно в розничных торговых сетях, аккумулируется огромное количество данных. Для их обработки необходимо использовать специальные механизмы. Не существует универсальных способов анализа и алгоритмов, пригодных для любых случаев и любых объемов информации. Методы анализа данных существенно отличаются друг от друга по производительности, качеству результатов, удобству применения, требованиям к данным.

Способы повышения производительности:

Производительность при обработке больших объемов данных можно повысить различными способами:

-Оборудование. Многопроцессорные системы, ОЗУ большой емкости, RAID-массивы.

-Базы данных: тяжелые СУБД, разбиение на разделы, оптимальное индексирование…

-Аналитическая платформа: параллельная обработка, кэширование данных, комбинирование простых и сложных моделей…

-Исходная информация: репрезентативные выборки, сегментирование данных, группировка…

-Алгоритмы: масштабируемые алгоритмы, комитеты моделей, иерархические модели.

Пропуская через «сито» моделей можно отсеивать информацию, для анализа которой бесполезны сложные алгоритмы. Для этих данных можно применять простые и быстрые методы. Сложные же модели использовать там, где это имеет смысл.

Очень часто оптимальной стратегией анализа является не разработка одной сложной модели, а построение нескольких моделей на разных сегментах данных и последующее объединение их результатов.

Для обработки больших объемов данных нет необходимости перерабатывать всю информацию. Модели можно строить на относительно небольших выборках, а затем применять их ко всему множеству.