Романов В

Перекрестное подтверждение

Для того чтобы устранить произвол в разбиении базы данных, могут быть применены методы повторных проб. Рассмотрим один из таких методов, который называется перекрестным подтверждением. Его идея состоит в том, чтобы случайным образом разбить базу данных на q попарно непересекающихся подмножеств. Затем производится q обучений на (q -1) множестве, а ошибка вычисляется по оставшемуся множеству. Если q достаточно велико, например, равно 10, каждое обучение задействует большую часть исходных данных. Если процедура обучения надежна, то результаты по q различным моделям должны быть очень близки друг к другу. После этого итоговая характеристика определяется как среднее всех полученных значений ошибки. К сожалению, при применении этого метода объем вычислений часто оказывается очень большим, так как требуется проделать q обучений, и в реальном приложении с большей размерностью это может быть невыполнимо. В предельном случае, когда q = Р, где Р - общее число примеров, метод называется пере крестным подтверждением с одним востатке. Такой метод оценки имеет смещение, и разработан метод» складного ножа», уменьшающий этот недостаток ценой еще большего объема вычислений.

Содержание