logo
Романов В

Сбор данных

Самое важное решение, которое должен принять аналитик, - это выбор совокупности переменных для описания, моделируемого процесса. Чтобы представить себе возможные связи между разными переменными, нужно хорошо понимать существо задачи. В этой связи очень полезно будет побе­седовать с опытным специалистом в данной предметной области. Относи­тельно выбранных вами переменных нужно понимать, значимы ли они сами по себе, или же в них всего лишь отражаются другие, действительно сущест­венные переменные. Проверка на значимость включает в себя кросс­корреляционный анализ. С его помощью можно, например, выявить времен­ную связь типа запаздывания (лаг) между двумя рядами. То, насколько явле­ние может быть описано линейной моделью, проверяется с помощью регрес­сии по методу наименьших квадратов (OLS).

Полученная после оптимизации невязкаR может принимать значения от 0 (полное несоответствие) до 1 (точное соответствие). Часто бывает так, что для линейных систем ОLS-метод дает такие результаты, которые уже нельзя сколько-нибудь значительно улучшить применением нейронных сетей.

В целом, можно сказать, что предварительная обработка через формиро­вание совокупности переменных и проверка их значимости существенно улучшает качество модели. Если никаких теоретических методов проверки в распоряжении нет, переменные можно выбирать методом проб и ошибок, или с помощью формальных методов типа генетических алгоритмов.