Этапы автоматического анализа текста
Входной текст для анализа
ПРЕДАНАЛИЗ
(подготовка текста к восприятию компьютером; поиск и устранение ошибок, расшифровка сокращений и т.п.)
МОРФОЛОГИЧЕСКИЙ АНАЛИЗ
(обработка отдельных слов: выделение основдля поиска значений слов в словаре ифлексий— т.е. приставки, суффикса, окончания и т.п.)
ПОВЕРХНОСТНЫЙ СИНТАКСИЧЕСКИЙ АНАЛИЗ
(установление грамматических отношений в рамках предложения; получение его поверхностной синтаксической структуры)
ГЛУБИННЫЙ СИНТАКСИЧЕСКИЙ АНАЛИЗ
(построение глубинной синтаксической структуры с использованием падежей Филмора и т.п.)
ПОВЕРХНОСТНЫЙ СЕМАНТИЧЕСКИЙ АНАЛИЗ
(установление семантических отношений в рамках предложения)
ГЛУБИННЫЙ СЕМАНТИЧЕСКИЙ АНАЛИЗ
(установление семантических связей предложений)
ПРАГМАТИЧЕСКИЙ АНАЛИЗ
(смысловое связывание текста в единое целое и, в случае необходимости, побуждение к его исполнению — к интерпретации)
ВЫЯВЛЕНИЕ ТЕКСТОВЫХ СТРУКТУР
(в частности, в случае необходимости — компиляция)
В процессе анализа текстов, содержащих более одного предложения, возникают новые структуры, обеспечивающие сцепление этих предложений в рамках некоторой описываемой ситуации или последовательности ситуаций. Возникают межфразовые связи, позволяющие понять текст как единое целое. Эти структуры пока изучены значительно хуже, чем структуры, лежащие в основе одного предложения.
Первый этап-подготовительный, его цель - сделать текст пригодным для ввода в вычислительную машину. Для этого из текста устраняются (если они есть) явные ошибки, расшифровываются сокращения и т. п.
На этапе морфологического анализаобрабатываются отдельные слова: в них выделяются основы и флексии (изменяемые части слов) - приставки, суффиксы, окончания. Основы слов служат для поиска значений слов, хранящихся в специальном словаре основ, а флексии используются для установления грамматических отношений между словами в рамках одного предложения.
Эти отношения выделяются на этапе поверхностного синтаксического анализа. Его результатом является одна из возможных (по форме) поверхностных синтаксических структур для каждого из предложений, образующих текст.
На этапе глубинного синтаксического анализастроится глубинная синтаксическая структура, которая затем,
на этапах семантического анализа, преобразуется вповерхностную и глубинную семантические структуры.
Последующие этапы, показанные на рисунке, позволяют строить при необходимости прагматические и текстовые структуры. Указанные этапы охватывают всю задачу анализа текстов на естественном языке. Необходимость в исполнении тех или иных этапов при анализе конкретного текста зависит от тех целей, для которых тот анализ осуществляется.
- Что такое компьютерная лингвистика?
- История
- Терминология (Предикаты, субъекты, переменные, понятия, признаки)
- Поднауки лингвистики
- Язык исчисления предикатов первого порядка
- Язык и грамматика (формы Бэкуса-Наура)
- Природа языка
- Моделирование языковой деятельности
- Автоматическая обработка текста и ее место среди различных дисциплин
- Анализ текстов на естественном языке
- Этапы автоматического анализа текста
- Синтез текстов на естественном языке
- Понимание текстов
- Оживление текста
- Модели коммуникации
- Морфологический анализ
- 1. Флективные языки:
- 2. Изолирующие (аморфные) языки:
- 3. Агглютинативные (агглютинирующие) языки:
- 4. Полисинтетические (инкорпорирующие) языки:
- Синтаксический анализ
- Валентность
- Семантический анализ
- Тезаурусы
- Словари ролевых моделей
- Базы знаний
- Информационно-поисковые системы Internet
- Принципы построения поисковых систем (на примере Google)