Базы знаний интелл

4.6.4. Приобретение знаний из текстов

Как было указано в параграфе 4.3, даже ручные методы выявления знаний из текста крайне слабо разработаны. В тех же немногих случаях, когда применяются автоматизированные методики, речь, как правило, идет о методах лексико-семантического анализа, а также о моделях понимания текста.

Наибольшую известность имеют модели понимания на лингвистическом уровне. Системы, основанные на них, состоят в большинстве случаев из двух частей:

• первая — морфологический и синтаксический анализ;

• вторая — семантический анализ, который использует результаты работы первой части, а также словарную или справочную информацию для построения формализованного образа текста.

Говоря о семантическом анализе текста, надо иметь в виду, что всякие отношения текстах его семантикой начинаются после того, как в нашем распоряжении оказывается некоторая модель действительности. Объектами этой модели, в частности, могут являться индивиды и отношения.

Таким образом, первая проблема, возникающая при попытках автоматического извлечения знаний из текста, — это выявление свойств элементов текста для соотнесения этих элементов с объектами модели. Крайне редко эти свойства присутствуют в тексте эксплицитно, то есть явно.

Вторая особенность существующих систем анализа текста — это, как правило, необходимость использования словаря предметной области для выполнения морфологического анализа, выделения имен и словосочетаний и т. д. Однако требование предварительного создания словаря предметной области одновременно сильно осложняет задачу и уменьшает степень универсальности получаемой системы.

Понимание текста на семантическом уровне предполагает выявление не только лингвистических, но и логических отношений между языковыми объектами [Апресян, 1974]. Среди подходов к пониманию текста на семантическом уровне следует выделить модели типа «смысл — текст», в частности, модель семантик предпочтения [Wilks, 1976], модель концептуальной зависимости [Хейес-Рот и др., 1987]. В модели «смысл — текст» [Мельчук, 1974] предлагается семантическое представление на основе семантического графа и описания коммуникативной структуры текста.

В системе KRITON [Diderich, Ruchman, May, 1987] анализ текста используется для выявления хорошо структурированных знаний из книг, документов, описаний, инструкций. Основанный на контент-анализе метод протокольного анализа используется для выявления процедурных знаний. Он осуществляется в пять шагов.

1. Протокол делится на сегменты на основании пауз, которые делает эксперт в процессе записи.

2. Семантический анализ сегментов, формирование высказываний для каждого сегмента.

3. Из текста выделяются операторы и аргументы.

4. Делается попытка поиска по образцу в БЗ для обнаружения переменных в высказываниях (переменная вставляется в высказывание, если соответствующая ссылка в тексте не обнаружена).

5. Утверждения упорядочиваются в соответствии с их появлением в протоколе.

В системе ТАКТ (Tool for Acquisition of Knowledge from Text) [Kaplan, Berry-Rog-ghe, 1991] предполагается предварительная подготовка (разметка посредством введения явной скобочной структуры) предложений текста до начала работы текстового анализатора. В результате анализа выделяются объекты, процессы и отношения каузального характера.

Содержание