logo search
Шпоры автоматизация и моделирование в ИД Сулим

34. Методы оценки качества процесса переработки текста.

Количество ошибок – это та характеристика, которая определяет качество набора текста. В некоторых изданиях (энциклопедиях, справочной литературе, важных политических документах) в принципе ошибки недопустимы. Поэтому такие издания должны снабжаться списками замеченных опечаток. Для анализа качества выполнения отдельных этапов переработки текста целесообразно применять метод дискретных Марковских процессов. Основными понятиями, которыми целесообразно пользоваться, будут:

Pi – вероятность того, что количество ошибок в тексте равно величине і. Компонента вектора должна удовлетворять требованию: сумма Pi=1, при і от 1 до n.

Чем больше объем текста, тем больше вероятность нахождения ошибки. Идеальный авторский текст после вычитки автором может быть описана вектором 10000. Идеальный компонент вектора: данные получены на основании обработки газетного текста, на фотонаборном аппарате.