logo search
ЛОИ New

Этапы автоматического анализа текста

Входной текст для анализа

ПРЕДАНАЛИЗ

(подготовка текста к восприятию компьютером; поиск и устранение ошибок, расшифровка сокращений и т.п.)

МОРФОЛОГИЧЕСКИЙ АНАЛИЗ

(обработка отдельных слов: выделение основдля поиска значений слов в словаре ифлексий— т.е. приставки, суффикса, окончания и т.п.)

ПОВЕРХНОСТНЫЙ СИНТАКСИЧЕСКИЙ АНАЛИЗ

(установление грамматических отношений в рамках предложения; получение его поверхностной синтаксической структуры)

ГЛУБИННЫЙ СИНТАКСИЧЕСКИЙ АНАЛИЗ

(построение глубинной синтаксической структуры с использованием падежей Филмора и т.п.)

ПОВЕРХНОСТНЫЙ СЕМАНТИЧЕСКИЙ АНАЛИЗ

(установление семантических отношений в рамках предложения)

ГЛУБИННЫЙ СЕМАНТИЧЕСКИЙ АНАЛИЗ

(установление семантических связей предложений)

ПРАГМАТИЧЕСКИЙ АНАЛИЗ

(смысловое связывание текста в единое целое и, в случае необходимости, побуждение к его исполнению — к интерпретации)

ВЫЯВЛЕНИЕ ТЕКСТОВЫХ СТРУКТУР

(в частности, в случае необходимости — компиляция)

В процессе анализа текстов, содержащих более одного предложения, возникают новые структуры, обеспечивающие сцепление этих предложений в рамках некоторой описываемой ситуации или последовательности ситуаций. Возникают межфразовые связи, позволяющие понять текст как единое целое. Эти структуры пока изучены значительно хуже, чем структуры, лежащие в основе одного предложения.

Первый этап-подготовительный, его цель - сделать текст пригодным для ввода в вычислительную машину. Для этого из текста устраняются (если они есть) явные ошибки, расшифровываются сокращения и т. п.

На этапе морфологического анализаобрабатываются отдельные слова: в них выделяются основы и флексии (изменяемые части слов) - приставки, суффиксы, окончания. Основы слов служат для поиска значений слов, хранящихся в специальном словаре основ, а флексии используются для установления грамматических отношений между словами в рамках одного предложения.

Эти отношения выделяются на этапе поверхностного синтаксического анализа. Его результатом является одна из возможных (по форме) поверхностных синтаксических структур для каждого из предложений, образующих текст.

На этапе глубинного синтаксического анализастроится глубинная синтаксическая структура, которая затем,

на этапах семантического анализа, преобразуется вповерхностную и глубинную семантические структуры.

Последующие этапы, показанные на рисунке, позволяют строить при необходимости прагматические и текстовые структуры. Указанные этапы охватывают всю задачу анализа текстов на естественном языке. Необходимость в исполнении тех или иных этапов при анализе конкретного текста зависит от тех целей, для которых тот анализ осуществляется.