logo search
Интеллектуальные Информационные Системы / лекции

5.1. Проблемы понимания естественного языка

Проблемы понимания естественного языка, будь то текст или речь, во многом зависят от знания предметной области. Понимание языка требует знаний о целях говорящего и о контексте. Необходимо также учитывать недосказанность или иносказательность. Например, даже в таком простом предложении «Ваня встретил Машу на поляне с цветами» нам не понятно, кто же был с цветами: Ваня, Маша или поляна? Еще один пример «Врач бегло говорила по-английски». Разбирая это предложение, необходимо в результате разбора зафиксировать, что врач была женщина. Крылатая фраза знаменитого русского лингвиста, академика Л.В.Щербы «Глокая куздра штеко будланула бокра и курдячит бокренка» говорит о том, что такая «непонятная» фраза построена по всем правилам русского языка, не вызывает проблем с грамматическим разбором такого предложения, но вызывает проблемы с пониманием. Попробуем сформулировать лишь некоторые проблемы понимания естественного языка.

  1. Проблема СМЫСЛ-ТЕКСТ. Об этом только что говорилось и приведем еще один пример по этой проблеме. В предложении «Какой завод заказал оборудование для конвертерного цеха в Бельгии?» неясен смысл: был ли сделан заказ в Бельгии или цех находится в Бельгии.

  2. Проблема планирования возникает при необходимости вести диалог, например, на тему «Куда Вы хотите лететь?». В этом случае нужно глубокое знание предметной области (номера рейсов, время прилета-отлета, цены и т.д.).

  3. Проблема равнозначности. Будут ли равнозначны два предложения «У дома стоит слон» и «У дома стоит существо с хоботом и бивнями»? На первый взгляд нет сомнений в равнозначности этих предложений. А если в базе знаний существо с хоботом и бивнями определено двумя значениями: слон и мамонт, то такие сомнения, наверное, появятся.

  4. Проблемы моделей участников общения. У участников общения должны быть сопоставимые модели представления знаний, необходимая глубина понимания, возможность логического вывода, возможность действия.

  5. Проблема эллиптических конструкций, то есть опущенных элементов диалога. Например, в пословице «Береги платье снову, а честь - смолоду» вторая часть предложения будет синтаксическим эллипсисом (опущен глагол береги).

  6. Проблема временных противоречий. Например, в предложении «Я хотел завтра пойти в кино» глагол «хотел» в прошедшей форме сочетается с обстоятельством будущего времени «завтра», что противоречит общепринятой логике.

Закончим с перечислением проблем и поговорим об основных понятиях. В качестве языков для общения с программой могут быть: язык меню, язык приказов, анкетный язык. Это регламентированные языки, в них могут работать упрощенные схемы разбора, например, по ключевым словам, и эти языки мы не рассматриваем. В качестве естественного языка (ЕЯ) мы рассматриваем подмножество Ограниченного Естественного Языка (ОЕЯ) - это профессионально-ориентированное подмножество ЕЯ конечного пользователя. Для разбора ОЕЯ используются программные комплексы, называемые Лингвистическими Трансляторами (ЛТ). Возможная структурная схема ЛТ приведена на рис. 5.1.

Определим или напомним основные понятия. Слово - одна из основных единиц языка, служащая для именования предметов, лиц, процессов, свойств и т.д. Предложение - любое высказывание, являющееся сообщением о чем-либо. Словосочетание - простейшая единица речи, которая образуется на основе подчинительной связи (согласования, управления, примыкания) двух и более слов. Словосочетание в отличие от предложения не является, как правило, сообщением. Дискурс - связный текст. Лексема - слово во всей совокупности его лексических значений. Морфема - минимальная законченная часть слова. Аффикс - прикрепленная к корню часть слова (подразделяется на префикс, суффикс, инфикс). Омонимы - разные по значению, но одинаковые по написанию слова, морфемы и др. единицы языка («рысь» - бег, «рысь» - животное). Синонимы - разные по написанию слова, но одинаковые по значению («орать», «кричать» или «дорога», «путь»). Эллипсис - опущенные слова в предложении («Я еду кататься, а ты?»). Анафора - повторение объектов предложения («Город пышный, город бедный» - А.С.Пушкин).

Рис. 5.1.  Структурная схема ЛТ