logo
Интеллектуальные Информационные Системы / лекции

Семантическая интерпретация

(СИ) определяет семантическое представление предложения. Результатом СИ должна быть модель в виде, например, семантической сети (см. лекцию 2) для отображения отношений между объектами предложения или лингвистического фрейма (ЛФ).

Исследование вопросов понимания английского естественного языка предложено в работах Хомского [65] (классическая книга по трансформационной грамматике), Вудса [66], Винограда [67] и других исследователей. Наибольшее распространение в 70-е годы получили расширенные сети переходов (РСП) Вудса и ATNL-грамматики. В английском языке проблема СИ упрощается за счет фиксированного порядка слов в предложении. Например, предложение на английском языке: «The dog has bitten John» переводится как «Собака укусила Джона» или «Джона укусила собака». В русском языке любой вариант перевода правильный и допустим. В английском языке возможен только единственный вариант построения такой фразы:

подлежащее (The dog) сказуемое (has bitten)

дополнение (John).

Таким образом, использованию РСП и ATNL-грамматик для разбора русского ОЕЯ в чистом виде препятствуют нефиксированный порядок слов в предложениях русского языка, а также синтаксическая неоднозначность грамматических категорий в предложении. Эти ограничения на структуру фраз русского языка делают метод РСП малоэффективным.

Для СИ может быть использован метод семантических падежей К. Филмора [34], получивший развитие в работе [72]для разбора русского ОЕЯ. Рассмотрим этот метод подробнее. Предложения выражают чаще всего действия, которые будем отображать в виде предиката в модели на основе ЛФ. Под предикатом в данном случае понимается любой элемент или группа элементов, выполняющих функции сказуемого в предложении, а также атрибутивные формы глагола - причастие, деепричастие, инфинитив. Предикат имеет признаки (модальность, переходность, время, наклонение, возвратность, безличность и т.д.), которые являются необходимыми компонентами для правильной семантической интерпретации остальных членов предложения из внешней (грамматической) во внутреннюю (семантическую) структуру. Остальные члены предложения разбиваются на группы сильносвязанных слов, в которых выделяется главное слово (как правило, существительное). В группу его актантов включаются причастия, прилагательные, числительные, местоимения, неопределенно-количественные слова и т.д. Главные слова группы являются актантами предиката и выполняют различные семантические «роли», которые можно описать на основе семантических падежей К. Филмора [34]: агент, объект, цель и т.д., а также дополнительные падежи: адресат, добавочный предикат, инструмент, время, место, определитель, указатель, количество, пример, деталь и т.п.

Целью СИ является однозначное выражение смысла предложения в известных системе внутренних понятиях, отношениях и фактах, а также выделение понятий «новой» декларативной информации, приказа для повелительных предложений и вопросительного элемента для вопросительных предложений. СИ включает в себя следующие этапы.

  1. Грамматическое и семантическое соотнесение очередного анализируемого элемента с уже разобранными элементами. Объединение элементов в группы сильносвязанных слов с проведением проверки «тестов ожидания» аналогично РСП. С помощью «тестов ожидания» можно проверить наличие фиксированных синтаксических конструкций, информация о которых хранится во входном словаре. Бинарная таблица отношений содержит пары определяемого и зависимого лексических элементов с указанием их грамматико-семантических признаков и семантической роли зависимого слова.

  2. Завершение оформления элементов в группы сильносвязанных слов с выделением главного слова, определением семантических ролей внутри группы и определением общих грамматических признаков группы (род, число, падеж и т.д.) на основе информации из словаря. Главное слово в группе выделяется с помощью фильтров модуля СУЩЕСТВИТЕЛЬНОЕ.

  3. Определение предиката и его признаков по словарю и выделение в случае группы предикатов главного, связки, глагола «быть», предикативных элементов. Форма предиката (простая, составная глагольная, составная именная) выделяется с помощью фильтров модулей ПРЕДИКАТ. По грамматико-семантическим признакам предикаты разбиваются на несколько КЛАССОВ, указанных в словаре, которые необходимы для выбора формы предиката. КЛАССАМИ предикатов могут быть: ДЕЙСТВИЕ, ФАЗА, СОСТОЯНИЕ, ОБЛАДАНИЕ, РАСПОЛОЖЕНИЕ, ПЕРЕМЕЩЕНИЕ, МОДАЛЬНОСТЬ, КУПЛЯ, ПРОДАЖА, ОТВЛЕЧЕННОЕ ДЕЙСТВИЕ.

  4. По окончании входной последовательности слов производится выбор ЛФ-шаблона по классу и типу предиката. В зависимости от типа (личные, безличные, страдательный залог) выбирается соответствующая модификация шаблона. Осуществляется заполнение ЛФ-шаблона с помощью таблиц бинарных отношений предикатов и существительных. В случае неопределенности происходит выделение дополнительных связей между группами существительного с помощью этих же бинарных таблиц. В случае неоднозначности связей используется ряд эвристических правил (принцип близости, принцип приоритетности предиката и т.д.) или обращение в базу знаний ИС.

Завершая описание этапа СИ, приведем результат семантической интерпретации нашего предложения «На мельнице хранятся разные сорта пшеницы» в виде семантической сети, показанной на рис. 5.2.

Рис. 5.2.  Результат семантической интерпретации предложения

В виде лингвистического фрейма это выглядит следующим образом:

(предикат (хранятся)

(агент (сорта)

(материал (пшеницы))

(деталь (разные)))

(место (на мельнице)))

В этом примере в группе сильносвязанных слов («разные сорта пшеницы») выделены свои семантические отношения «материал» и «деталь» у главного слова в группе («сорта»).