logo
Романов В

Подготовка исходных данных

Для построения классификатора необходимо определить, какие парамет­ры влияют на принятие решения о том, к какому классу принадлежит обра­зец. При этом могут возникнуть две проблемы. Во-первых, если количество параметров мало, то может возникнуть ситуация, при которой один и тот же набор исходных данных соответствует примерам, находящимся в разных классах. Тогда невозможно обучить нейронную сеть, и система не будет корректно работать (невозможно найти минимум, который соответствует такому набору исходных данных). Исходные данные обязательно должны быть непротиворечивы. Для решения этой проблемы необходимо увеличить размерность пространства признаков (количество компонент входного век­тора, соответствующего образцу). Но при увеличении размерности про­странства признаков может возникнуть ситуация, когда число примеров мо­жет стать недостаточным для обучения сети, и она вместо обобщения просто запомнит примеры из обучающей выборки и не сможет корректно функцио­нировать. Таким образом, при определении признаков необходимо найти компромисс с их количеством.

Далее необходимо определить способ представления входных данных для нейронной сети, Т.е. определить способ нормирования. Нормировка необходима, поскольку нейронные сети работают с данными, представлен­ными числами в диапазоне 0..1, а исходные данные могут иметь произ­вольный диапазон или вообще быть нечисловыми данными. При этом воз­можны различные способы, начиная от простого линейного преобразова­ния в требуемый диапазон и заканчивая многомерным анализом парамет­ров и нелинейной нормировкой в зависимости от влияния параметров друг на друга.