logo
ЛОИ New

Семантический анализ

Задачи семантического анализа:

1. построение семантической интерпретации слов и конструкций;

2. установление «содержательных» семантических отношений между элементами текста.

Элементы текста не ограничиваются словами или даже словосочетаниями. Здесь мы выходим на сверхфразовый уровень. Часто семантический анализ оперирует на уровне связного текста. Например, разрешение кореферентности — тоже уровень семантического анализа.

Кореферентность

1) отношение между компонентами высказывания (обычно именными группами), которые обозначают один и тот же внеязыковой объект или ситуацию, т.е. имеют один и тот же референт

2) выражение одной и той же внеязыковой сущности при помощи различных языковых конструкций.

Результат семантического анализа — семантическая структура предложения или текста.

Разбив предложение на составные части, компьютер проводит его семантический анализ, т.е. пытается понять его смысл. В системах искусственного интеллекта применяется некоторая совокупность правил, позволяющая компьютеру понять смысл предложения:

Для интерпретации предложения в базе знаний семантического анализатора должен быть следующий набор правил.

Правило 1: ЕСЛИ определение стоит на первом месте и за ним идет существительное, ТО существительное является подлежащим.

Правило 2: ЕСЛИ за подлежащим идет глагол, ТО этот глагол является сказуемым и поясняет, что делает подлежащее.

Правило 3: ЕСЛИ за подлежащим идет сказуемое, а за ним следует существительное, ТО это существительное является дополнением.

Правило 4: ЕСЛИ предложение имеет следующий порядок слов: подлежащее, глагол, дополнение, ТО вся фраза говорит о том, что подлежащее делает (действие, выраженное сказуемым) по отношению к дополнению.

Синтаксическое дерево предложения

Процессор естественного языка

Поясним сказанное на примере. Предположим, что система искусственного интеллекта должна решить следующую задачу: узнать, что делает дровосек и что является объектом его действия. Семантический анализатор обращается к правилу 1, с помощью которого определяет, что слово “дровосек” - это подлежащее. С помощьюправила 2определяется, что слово “рубит” - это сказуемое. Объект действия, выраженный словом “дерево”, устанавливается с помощьюправил 3 и 4. Данный пример показывает, как процессор естественного языка обрабатывает или “понимает” предложение, используя лексические, синтаксические и семантические правила своей базы знаний.

Процессор естественного языка может служить промежуточным звеном между пользователем и другой системой искусственного интеллекта, позволяя человеку устно общаться с компьютером (см. рис.Процессор ЕЯ). По существу, обработка естественного языка может освободить пользователя компьютера от необходимости изучать сложные языки программирования. Если удастся создать программы, которые позволят компьютеру и пользователю общаться на естественном языке, то будет сделан крупнейший шаг на пути создания подлинно “интеллектуального” компьютера.

ФУНКЦИОНАЛЬНЫЙ ПОДХОД

Функциональная природа языка. С точки зрения этого подхода любое слово русского языка является именем (названием) функцииf(x1, …, xn), которая связывается с этим словом и называется егосемантикой. Каждое свое конкретное значение слово получает только после подстановки конкретных значений – также как функцияsin(x)получает свое значение только после подстановки конкретного аргумента. Смысл слова вычисляется в процессе выполнения функцииf.

Предложение – единая законченная суперпозиция функций. Т.е. предложение это выражение – в математическом смысле этого слова. Например, sin(x+y)– выражение, аsin(x+– не выражение. “Он смотрит в глаза собеседнику” – предложение, а “Он смотрит собеседнику" – не предложение. Смысл предложения вычисляется в процессе построения и выполнения суперпозиции.

Семантический анализатор в процессе построения суперпозиции выполняет два основных действия – выбор правильного значения (компьютерного толкования) слова и связывание выбранных значений в осмысленные выражения (целостные словосочетания), т.е. в выражения, которые имеют независимое семантическое толкование.

Требование выделения целостных словосочетаний и их независимого толкования приводит к тому, что связывание слов не сводится к их простой состыковке. При связывании происходит функциональное взаимодействие слов, в результате которого вычисляется новый смысл, в частности – новый семантико-грамматический тип построенной конструкции. Например, при взаимодействии предлогаВсо словосочетаниемпрошлом году вырабатывается типКогда,со словом лесу– типГде и т.п. Особым значением является пустое значение (илибессмыслица), которое приводит к разрыву семантической связи.

При взаимодействии прилагательного и существительного вырабатывается грамматический тип существительного, однако, семантика словосочетания может существенно отличаться от семантики самого существительного. Например, в выражении Белая ворона.Это относится не только к прилагательным и существительным, но и к любому слову, способному присоединять к себе другие слова.

Часто используемое в лингвистике понятие валентностьследует понимать буквально, в химическом смысле: кислород и водород, реализуя свои валентности, перестают быть кислородом и водородом, а создают новую сущность – воду. С точки зрения информатики, присоединяемые слова являютсяаргументами, из которых присоединяющее их слово строит новую конструкцию, семантика которой может существенно отличаться от семантики ее составляющих. Любой достаточно развитый язык имеет функциональную природу, и толькосуперпозиция функцийадекватна структуре предложений такого языка.

Функциональная природа языка проявляется на всех его уровнях – от механизма словообразования до механизма построения текста. Достаточно посмотреть на аффикс как на функцию, аргументом которой является корень слова, чтобы увидеть удивительную регулярность механизма словообразования русского языка. Благодаря этой регулярности вначале удалось формализовать семантику словообразования, затем автоматически построить семантическое описание большого количества производных слов, сведя эти описания к описанию слов более простых по морфемному составу. Это позволило существенно автоматизировать процесс построения компьютерного семантического словаря и, в конечном счете, построить его.

В качестве примера рассмотрим два суффикса: -тельи–ость. При помощи суффикса-тельобразуются отглагольные существительные, называющие первый аргумент глагола(учить – учитель).Число таких слов в стотысячном словаре692. Из них 671 слово подпадает под это правило. Исключением является 21 слово:приятель, неприятель, числитель, знаменательи другие. Поэтому описание семантики подавляющего числа таких слов сводится к описанию семантики соответствующего глагола при помощи одной и той же формулы x –> s1 x.. Смысл суффикса-ость, с помощью которого от прилагательных образуются существительные(дряхлый – дряхлость), выражается формулойx –> Copul_o(Род,x).Всего таких слов3177, исключение53 слова:ревность, стоимость, промышленность, решимость и другие.

СЕМАНТИЧЕСКИЕ УЗЛЫ

Семантический анализ строит семантическую структуру одного предложения на русском языке. Семантическая структура состоит из семантических узловисемантических отношений. Семантические отношения уже были описаны выше.

Семантический узел– это такой объект текстовой семантики, у которого заполнены все валентности, как эксплицитно выраженные в тексте, так и имплицитные – те, которые получаются из экстралингвистических источников.

Из определения следует, что семантический узел может быть построен только в самом конце семантического анализа. Собственно говоря, главная цель семантического анализа – построение семантических узлов, которое подразумевает заполнение всех валентностей.

Из определения также следует, что в семантическом анализе есть семантические узлы и их атрибуты, входящие в семантические узлы. Проблема заключается в том, как отличить одно от другого.

Как и на всех этапах анализа, семантические узлы образуются из слов исходного предложения. Главный источник гипотез о составе семантического узла дает, безусловно, синтаксический анализ. Многие синтаксические группы могут перейти в семантические узлы, другие должны превратиться в атрибуты узлов. В качестве дополнительных источников могут выступать словари и тезаурусы.

Вход семантического анализа

Синтаксическое представление одного предложения на русском языке. Семантические словари и тезаурусы.

Выход семантического анализа

Множество семантических структур, построенных на основе входного синтаксического представления. Например, для предложения Дом Пашкова стоял на пригоркебудет построена следующая семантические структура:

ПРИНАДЛ (Пашков,дом) П-АКТ(дом,стоял) ЛОК ( пригорке,стоял)

Кроме слов, семантические узлы могут включать:

Каждому узлу приписано множество атрибутов:

Подробный алгоритм семантического анализа приводить не будем.

Семантические словари в автоматической обработке текста

Семантический анализпозволяет оценить смысл передаваемой информации, соотнося ее с информацией, хранящейся до появления данной. Семантические связи между словами или другими единицами языка отражаютсемантические словари.