logo
ЛОИ New

Анализ текстов на естественном языке

Лингвисты давно изучают, как устроен текст, и прежде всего предложение, играющее роль кирпичика, из совокупности которых складывается текст. Но лишь с появлением компьютеров эти исследования приобрели новое направление. Группа американских лингвистов выдвинула дерзкую идею, получившую название Джорджтаунский проект, - автоматизировать процесс перевода текстов с одного языка на другой, используя для этого ЭВМ. Идея заинтересовала лингвистов многих стран и активизировала работы в области анализа текстов. В ходе этих работ надо было ответить прежде всего на вопрос: "Существуют ли строгие формальные правила, по которым строится структура предложения и структура текста?" Если о структуре предложения лингвисты накопили много материала, то структура текста ими не изучалась. В результате проведенных исследований стало ясно, что за каждым текстом (в том числе и за отдельным предложением, являющимся своего рода мини-текстом) скрывается не одна, а несколько формальных структур, которые можно разделить на три уровня.

Первый уровеньповерхностная синтаксическая структура. Каждое предложение текста рассматривается изолировано от других. Проводится разбор предложения — подлежащее, сказуемое, определения, дополнения, обстоятельства разного вида и т.п. Но этой структуры для анализа оказывается мало.

Второй уровеньглубинная синтаксическая структура. Идея существования глубинной синтаксической структуры связана с пониманием того, что различные естественные языки, отличаясь друг от друга многими внешними синтаксическими особенностями, передают весь спектр взаимосвязей между объектами, явлениями, их свойствами и протекающими с их участием процессами, характерными для окружающего мира. И этот мир един, каким бы языком мы его ни описывали. Следовательно, в каждом тексте существуют не зависящие от особенностей языка некие глубинные структуры, которые определяют адекватное отображение той или иной ситуации в окружающем мире. С этой идеей тесно связано использование так называемыхглубинных падежей, илипадежей Филмора, названных по имени американского исследователя, впервые введшего их в научный оборот.

Рассмотрим как пример две фразы: "Мальчик сорвал цветок" и "Цветок, сорванный мальчиком". Отвлечемся от того, что активная и пассивная конструкции предложений фиксируют несколько различный смысл сказанного, обращают наше основное внимание на разные стороны ситуации. Остановимся на уровне синтаксиса. В первом предложении субъект действия "сорвал" - это "мальчик". И это слово играет здесь роль подлежащего, о чем свидетельствует именительный падеж. Во втором же предложении роль подлежащего играет слово "цветок", а слово "мальчик" стоит в творительном' падеже. Но субъектом действия "сорвал" и здесь остается все тот же "мальчик". А цветок в любом из двух приведенных предложений играет роль объекта действия. Понимание ситуации, описываемой любым из этих предложений, заключается, в частности, в том, что мы выделяем в тексте некоторое действие, а также его субъект и объект. Позиции субъекта и объекта служат примером тех самых глубинных падежей, которые ввелФилмор. Эти два падежа (субъектный(субъект действия),объектный(объект действия)) не единственные. Разные исследователи выделяют разное количество таких падежей (инструментальный, временной, пространственныйи т.д.), но их общее количество не превосходит полутора десятка.

Синтаксическая структура, построенная на основе глубинных падежей, позволяет перейти от синтаксического уровня предложения к его семантическому уровню.

Третий уровеньсемантическая структура. На этом уровне для анализа привлекаются дополнительные данные, связанные с наличием у лексических единиц языка (в частности, слов) определенных значений. Сами значения известны носителю языка и хранятся в его памяти. Обращение к памяти позволяет приписать элементам предложения соответствующие им значения и использовать их для понимания текста на семантическом уровне. В семантических структурах (третий уровень формальных структур) также можно выделить поверхностный и глубинный уровни, в чем-то похожие на соответствующие уровни в синтаксических структурах.Поверхностный семантический уровеньтесно связан сглубинной синтаксической структурой, аглубинный семантический уровенькак бы отрывается от нее, передавая смысл для целого класса однотипных ситуаций. Например, анализируя фразу:

"Женщина пришла домой из магазина очень расстроенная",

на поверхностном семантическом уровне мы фиксируем лишь сам факт состояния женщины. На глубинном же семантическом уровне мы сможем высказать предположение о причинах ее состояния - пустые полки магазинов, очереди, отнимающие массу времени и сил, и т. д.

Прагматические структурыИз них следует понимание того, к чему обязывает или призывает данное предложение. могут быть названы структуры наиболее глубокого уровня, которые возникают при анализе предложений. Прагматические структуры устанавливают связь между предложениями в тексте, связывают текст в единое целое, а также побуждают нас делать те или иные действия в реальном мире (как, например, надпись: "Стой! Проход запрещен!"). Чтобы выделить необходимые структуры при автоматическом анализе, надо пройти несколько последовательных этапов. В укрупненном виде они показаны на рисунке: