Семантический анализ
Задачи семантического анализа:
1. построение семантической интерпретации слов и конструкций;
2. установление «содержательных» семантических отношений между элементами текста.
Элементы текста не ограничиваются словами или даже словосочетаниями. Здесь мы выходим на сверхфразовый уровень. Часто семантический анализ оперирует на уровне связного текста. Например, разрешение кореферентности — тоже уровень семантического анализа.
Кореферентность–
1) отношение между компонентами высказывания (обычно именными группами), которые обозначают один и тот же внеязыковой объект или ситуацию, т.е. имеют один и тот же референт
2) выражение одной и той же внеязыковой сущности при помощи различных языковых конструкций.
Результат семантического анализа — семантическая структура предложения или текста.
Разбив предложение на составные части, компьютер проводит его семантический анализ, т.е. пытается понять его смысл. В системах искусственного интеллекта применяется некоторая совокупность правил, позволяющая компьютеру понять смысл предложения:
Для интерпретации предложения в базе знаний семантического анализатора должен быть следующий набор правил.
Правило 1: ЕСЛИ определение стоит на первом месте и за ним идет существительное, ТО существительное является подлежащим.
Правило 2: ЕСЛИ за подлежащим идет глагол, ТО этот глагол является сказуемым и поясняет, что делает подлежащее.
Правило 3: ЕСЛИ за подлежащим идет сказуемое, а за ним следует существительное, ТО это существительное является дополнением.
Правило 4: ЕСЛИ предложение имеет следующий порядок слов: подлежащее, глагол, дополнение, ТО вся фраза говорит о том, что подлежащее делает (действие, выраженное сказуемым) по отношению к дополнению.
Синтаксическое дерево предложения
Процессор естественного языка
Поясним сказанное на примере. Предположим, что система искусственного интеллекта должна решить следующую задачу: узнать, что делает дровосек и что является объектом его действия. Семантический анализатор обращается к правилу 1, с помощью которого определяет, что слово “дровосек” - это подлежащее. С помощьюправила 2определяется, что слово “рубит” - это сказуемое. Объект действия, выраженный словом “дерево”, устанавливается с помощьюправил 3 и 4. Данный пример показывает, как процессор естественного языка обрабатывает или “понимает” предложение, используя лексические, синтаксические и семантические правила своей базы знаний.
Процессор естественного языка может служить промежуточным звеном между пользователем и другой системой искусственного интеллекта, позволяя человеку устно общаться с компьютером (см. рис.Процессор ЕЯ). По существу, обработка естественного языка может освободить пользователя компьютера от необходимости изучать сложные языки программирования. Если удастся создать программы, которые позволят компьютеру и пользователю общаться на естественном языке, то будет сделан крупнейший шаг на пути создания подлинно “интеллектуального” компьютера.
ФУНКЦИОНАЛЬНЫЙ ПОДХОД
Функциональная природа языка. С точки зрения этого подхода любое слово русского языка является именем (названием) функцииf(x1, …, xn), которая связывается с этим словом и называется егосемантикой. Каждое свое конкретное значение слово получает только после подстановки конкретных значений – также как функцияsin(x)получает свое значение только после подстановки конкретного аргумента. Смысл слова вычисляется в процессе выполнения функцииf.
Предложение – единая законченная суперпозиция функций. Т.е. предложение это выражение – в математическом смысле этого слова. Например, sin(x+y)– выражение, аsin(x+– не выражение. “Он смотрит в глаза собеседнику” – предложение, а “Он смотрит собеседнику" – не предложение. Смысл предложения вычисляется в процессе построения и выполнения суперпозиции.
Семантический анализатор в процессе построения суперпозиции выполняет два основных действия – выбор правильного значения (компьютерного толкования) слова и связывание выбранных значений в осмысленные выражения (целостные словосочетания), т.е. в выражения, которые имеют независимое семантическое толкование.
Требование выделения целостных словосочетаний и их независимого толкования приводит к тому, что связывание слов не сводится к их простой состыковке. При связывании происходит функциональное взаимодействие слов, в результате которого вычисляется новый смысл, в частности – новый семантико-грамматический тип построенной конструкции. Например, при взаимодействии предлогаВсо словосочетаниемпрошлом году вырабатывается типКогда,со словом лесу– типГде и т.п. Особым значением является пустое значение (илибессмыслица), которое приводит к разрыву семантической связи.
При взаимодействии прилагательного и существительного вырабатывается грамматический тип существительного, однако, семантика словосочетания может существенно отличаться от семантики самого существительного. Например, в выражении Белая ворона.Это относится не только к прилагательным и существительным, но и к любому слову, способному присоединять к себе другие слова.
Часто используемое в лингвистике понятие валентностьследует понимать буквально, в химическом смысле: кислород и водород, реализуя свои валентности, перестают быть кислородом и водородом, а создают новую сущность – воду. С точки зрения информатики, присоединяемые слова являютсяаргументами, из которых присоединяющее их слово строит новую конструкцию, семантика которой может существенно отличаться от семантики ее составляющих. Любой достаточно развитый язык имеет функциональную природу, и толькосуперпозиция функцийадекватна структуре предложений такого языка.
Функциональная природа языка проявляется на всех его уровнях – от механизма словообразования до механизма построения текста. Достаточно посмотреть на аффикс как на функцию, аргументом которой является корень слова, чтобы увидеть удивительную регулярность механизма словообразования русского языка. Благодаря этой регулярности вначале удалось формализовать семантику словообразования, затем автоматически построить семантическое описание большого количества производных слов, сведя эти описания к описанию слов более простых по морфемному составу. Это позволило существенно автоматизировать процесс построения компьютерного семантического словаря и, в конечном счете, построить его.
В качестве примера рассмотрим два суффикса: -тельи–ость. При помощи суффикса-тельобразуются отглагольные существительные, называющие первый аргумент глагола(учить – учитель).Число таких слов в стотысячном словаре– 692. Из них 671 слово подпадает под это правило. Исключением является 21 слово:приятель, неприятель, числитель, знаменательи другие. Поэтому описание семантики подавляющего числа таких слов сводится к описанию семантики соответствующего глагола при помощи одной и той же формулы x –> s1 x.. Смысл суффикса-ость, с помощью которого от прилагательных образуются существительные(дряхлый – дряхлость), выражается формулойx –> Copul_o(Род,x).Всего таких слов–3177, исключение–53 слова:ревность, стоимость, промышленность, решимость и другие.
СЕМАНТИЧЕСКИЕ УЗЛЫ
Семантический анализ строит семантическую структуру одного предложения на русском языке. Семантическая структура состоит из семантических узловисемантических отношений. Семантические отношения уже были описаны выше.
Семантический узел– это такой объект текстовой семантики, у которого заполнены все валентности, как эксплицитно выраженные в тексте, так и имплицитные – те, которые получаются из экстралингвистических источников.
Из определения следует, что семантический узел может быть построен только в самом конце семантического анализа. Собственно говоря, главная цель семантического анализа – построение семантических узлов, которое подразумевает заполнение всех валентностей.
Из определения также следует, что в семантическом анализе есть семантические узлы и их атрибуты, входящие в семантические узлы. Проблема заключается в том, как отличить одно от другого.
Как и на всех этапах анализа, семантические узлы образуются из слов исходного предложения. Главный источник гипотез о составе семантического узла дает, безусловно, синтаксический анализ. Многие синтаксические группы могут перейти в семантические узлы, другие должны превратиться в атрибуты узлов. В качестве дополнительных источников могут выступать словари и тезаурусы.
Вход семантического анализа
Синтаксическое представление одного предложения на русском языке. Семантические словари и тезаурусы.
Выход семантического анализа
Множество семантических структур, построенных на основе входного синтаксического представления. Например, для предложения Дом Пашкова стоял на пригоркебудет построена следующая семантические структура:
ПРИНАДЛ (Пашков,дом) П-АКТ(дом,стоял) ЛОК ( пригорке,стоял) |
Кроме слов, семантические узлы могут включать:
Знаки препинания. Например, для предложения Он купил картошку, лук.
Устойчивые обороты. Например, для предложения По правде говоря, я сплю:
Абстрактные узлы Copul или ModalCopul. Например, для предложения Он считал этого человека великим ученым:
Устойчивые словосочетания. Например, Ему не хватило духа сказать об этом:
Жесткие синтаксические группы, например, для словосочетания двадцать два мальчика:
|
Каждому узлу приписано множество атрибутов:
Набор графематических слов, из которых состоит данный узел;
Номер семантически главного слова в узле;
Грамматическая интерпретация узла (внешняя синтаксическая характеристика);
Номер фрагмента (клаузы), которому принадлежит узел;
Предлог, который в синтаксисе управлял этим узлом;
Ссылка на словарную статью в семантических словарях, которая является интерпретацией этого узла (может быть не определена);
Ссылка на словарную статью открытого словосочетания и номер элемента в поле СОСТАВ этого словосочетания (может быть не определена);
Флаги: IsMNA – является или нет этот узел оператором однородности; IsCopul, IsModalCopul - является или нет этот узел копульным или модально копульным (см. параграф "Абстрактные узлы"); IsEachOtherOborot – является или нет этот узел оборотом типа "друг друга" и др.
Теперь перечислим параметры семантического отношения. Кроме названия, у семантического отношения могут быть следующие параметры:
ссылка на словарную статью, откуда было взято это отношение, и номер валентности в этой статье;
перечень русских слов, которые являются лексическими реализациями этого отношения во входном тексте (предлоги, союзы и т.д);
русское синтаксическое отношение, которое является реализацией этого семантического отношения;
флаг IsSemFetAgree – согласовано или нет это отношение по СХ.
условная длина.
Подробный алгоритм семантического анализа приводить не будем.
Семантические словари в автоматической обработке текста
Семантический анализпозволяет оценить смысл передаваемой информации, соотнося ее с информацией, хранящейся до появления данной. Семантические связи между словами или другими единицами языка отражаютсемантические словари.
- Что такое компьютерная лингвистика?
- История
- Терминология (Предикаты, субъекты, переменные, понятия, признаки)
- Поднауки лингвистики
- Язык исчисления предикатов первого порядка
- Язык и грамматика (формы Бэкуса-Наура)
- Природа языка
- Моделирование языковой деятельности
- Автоматическая обработка текста и ее место среди различных дисциплин
- Анализ текстов на естественном языке
- Этапы автоматического анализа текста
- Синтез текстов на естественном языке
- Понимание текстов
- Оживление текста
- Модели коммуникации
- Морфологический анализ
- 1. Флективные языки:
- 2. Изолирующие (аморфные) языки:
- 3. Агглютинативные (агглютинирующие) языки:
- 4. Полисинтетические (инкорпорирующие) языки:
- Синтаксический анализ
- Валентность
- Семантический анализ
- Тезаурусы
- Словари ролевых моделей
- Базы знаний
- Информационно-поисковые системы Internet
- Принципы построения поисковых систем (на примере Google)