logo
Базы знаний интелл

4.5.1. Эволюция систем приобретения знаний

Первое поколение таких систем появилось в середине 80-х — это так называемые системы приобретения знаний (СПЗ) (TEIRESIAS [Davis, 1982], SIMER+ MIR [Осипов, 1988], АРИАДНА [Моргоев, 1988]). Это средства наполнения так называемых «пустых» ЭС, то есть систем, из БЗ которых изъяты знания (например, EMYCIN — EMPTY MYCIN, опустошенная медицинская ЭС MYCIN со специальной диалоговой системой заполнения базы знаний TEIRESIAS). Их авторы считали, что прямой диалог эксперта с компьютером через СПЗ поможет сократить жизненный цикл разработки. Однако опыт создания и внедрения СПЗ продемонстрировал несовершенство такого подхода.

Основные недостатки СПЗ I поколения:

• Слабая проработка методов извлечения и структурирования знаний.

• Жесткость модели представления знаний, встроенной в СПЗ и связанной с привязкой к программной реализации.

• Ограничения на предметную область.

Таким образом, традиционная схема разработки СПЗ I поколения:

создание конкретной ЭС  опустошение БЗ  разработка СПЗ для новых наполнений БЗ  формирование новой БЗ для другой ЭС

оказалась несостоятельной для промышленного применения.

Второе поколение СПЗ появилось в конце 80-х и было ориентировано на более широкий модельный подход [Gaines, 1989; Борисов, Федоров, Архипов, 1991] с акцентом на предварительном детальном анализе предметной области. Так, в Европе широкое применение получила методология KADS (Knowledge Acquisition and Documentation Structuring) [Wielinga et al., 1989], в основе которой лежит понятие интерпретационной модели> позволяющей процессы извлечения, структурирования и формализации знаний рассматривать как «интерпретацию» лингвистических знаний в другие представления и структуры.

KADS-методология

Рисунок 4.13 демонстрирует преобразование знаний согласно методологии KADS [Breuker, Wielinga, 1989] через спецификацию пяти шагов анализа «идентификация — концептуализация — гносеологический уровень логический уровень —уровень анализа выполнения» и стадии или пространства проектирования.

Рис. 4.13. Методология KADS

Результатом анализа является концептуальная модель экспертизы, состоящая из четырех уровней (уровня области — уровня вывода — уровня задачи — стратегического уровня), которая затем вводится в пространство проектирования и преобразуется в трехуровневую модель проектирования (рис. 4.14).

При решении реальных задач KADS использует библиотеку интерпретационных моделей, описывающих общие экспертные задачи, такие как диагностика, мониторинг (см. классификацию 1 из п. 2.2) и пр., без конкретного наполнения объектами предметной области. Интерпретационная модель представляет собой концептуальную модель без уровня области. На основании извлеченных лингвистических данных происходит отбор, комбинация и вложение верхних уровней модели, то есть уровней вывода и задачи, которые наполняются конкретными объектами и атрибутами из уровня области и представляют в результате концептуальную модель рассматриваемой задачи. На рис. 4.15 представлена модель жизненного цикла KADS.

Рис. 4.14, Основные модели KADS

Первые системы программной поддержки KADS-методологии представлены набором инструментальных средств KADS Power Tools [Schreiber G., Breuker J. et al., 1988]. В этот набор входят следующие системы: редактор протоколов FED (Protocol Editor); Редактор системы понятий (Concept Editor); Редактор концептуальных моделей СМЕ (Conceptual Model Editor) и ИМ-библиотекарь IML (Interpretation Model Librarian).

Редактор протоколов — программное средство, помогающее инженеру по знаниям в проведении анализа знаний о предметной области на лингвистическом уровне. При работе со знаниями на этом уровне исходным материалом являются тексты (протоколы) — записи интервью с экспертом, протоколы «мыслей вслух» и любые другие тексты, полезные с точки зрения инженера знаний. Редактор протоколов реализован как гипертекстовая система, обеспечивающая выделение фрагментов в анализируемом тексте, установление связей между фрагментами, группирование фрагментов, аннотирование фрагментов. Фрагменты могут иметь любую длину — от отдельного слова до протокола в целом. Фрагменты могут перекрывать друг друга.

Возможны следующие типы связей между фрагментами;

аннотация (связь между фрагментом протокола и некоторым текстом, введенным инженером знаний для спецификации этого фрагмента);

член группы (связь между фрагментом и названием — именем группы фрагментов; объединение фрагментов в группу позволяет инженеру знаний структурировать протоколы, при этом группа фрагментов получает уникальное имя);

поименованная связь (связь между двумя фрагментами, имя связи выбирается инженером знаний);

понятийная связь (поименованная связь между фрагментом и понятием; обычно используется, если фрагмент содержит определение понятий).

Редактор понятий помогает инженеру знаний организовывать предметные знания в виде набора понятий и связывающих их отношений. Каждое понятие имеет имя и может иметь атрибуты; каждый атрибут может иметь значение. Какие именно атрибуты используются — это определяет инженер знаний с учетом специфики предметной области. С помощью Редактора понятий инженер знаний может вводить произвольные отношения между понятиями и создавать иерархические структуры по тому или иному отношению. Существует единственное отношение (ISA), семантика которого «встроена» в Редактор. Если инженер знаний устанавливает это отношение между двумя понятиями, то имеет место наследование атрибутов.

ИМ-библиотекарь помогает инженеру знаний проводить анализ предметных знаний на эпистемологическом уровне. Основное назначение Библиотекаря состоит в том, чтобы помочь инженеру знаний выбрать одну или более ИМ, подходящих для исследуемой проблемной области (ПО). Помощь Библиотекаря проявляется в чисто информационном аспекте. Вначале Библиотекарь демонстрирует пользователю иерархию типов задач, для которых в библиотеке имеются ИМ. После того как пользователь выбрал интересующую его ИМ, ему демонстрируется ее краткое описание и список атрибутов, включающий в себя следующие атрибуты: «краткое описание», «определение», «структура задачи», «стратегии», «ПО-знания». Выбрав атрибут «определение», пользователь сможет увидеть на экране графическое изображение структуры вывода, элементами которой являются источники знаний и метаклассы. Как источники знаний, так и метаклассы имеют свои наборы атрибутов; инженер знаний может просмотреть их, указывая на соответствующий элемент.

Психосемантика

Помимо идеологии KADS на разработку СПЗ II поколения большое влияние оказали методы смежных наук, в частности психосемантики, одного из молодых направлений прикладной психологии [Петренко, 1988; Шмелев, 1983], перспективного инструмента, позволяющего реконструировать семантическое пространство памяти и тем самым моделировать глубинные структуры знаний эксперта (см. параграф 5.1). Уже первые приложения психосемантики в ИИ в середине 80-х годов позволили получить достаточно наглядные результаты [Кук, Макдо-нальд, 1986]. В дальнейшем развитие этих Методов шло по линии разработки удобных пакетов прикладных программ, основанных на методах многомерного шкалирования, факторного анализа, а также специализированных методов обработки репертуарных решеток [Франселла, Баннистер, 1987] (параграф 5.2). Примерами СПЗ такого типа являются системы KELLY [Похилько, Страхов, 1990], MADONNA [Терехина, 1988], MEDIS [Алексеева и др., 1989]. Специфика конкретных приложений требовала развития также «нечисленных» методов, использующих парадигму логического вывода. Примерами систем этого направления служат системы ETS [Boose, 1986] и AQUINAS [Boose, Bradshaw, Schema,1988]. Успехи СПЗ II поколения позволили значительно расширить рынок ЭС, который к концу 80-х оценивался в 300 млн долларов в год [Попов, 1991]. Тем не менее и эти системы были не свободны от недостатков, к важнейшим из которых можно отнести:

• несовершенство интерфейса, в результате чего неподготовленные эксперты не способны овладеть системой и отторгают ее;

• сложность настройки на конкретную профессиональную языковую среду;

• необходимость разработки дорогостоящих лингвистических процессоров для анализа естественно-языковых сообщений и текстов.

Третье поколение СПЗ — KEATS [Eisenstadt et al, 1990], MACAO [Aussenac-Gilles, Natta, 1992], NEXPERT-OBJECT [NEXPERT-OBJECT, 1990] - перенесло акцент в проектировании с эксперта на инженера по знаниям [Гаврилова, 1988; Gruber, 1989]. Новые СПЗ — это программные средства для аналитика, более сложные, гибкие, а главное использующие графические возможности современных рабочих станций и достижения CASE-технологии (Computer-Aided Software Engineering). Эти системы позволяют не задавать заранее интерпретационную модель, а формировать структуру БЗ динамически. Существуют различные классификации СПЗ — по выразительности и мощности инструментальных средств [Попов, 1988]; по обобщенным характеристикам [Boose, 1990]; в рамках структурно-функционального подхода [Волков, Ломнев, 1989]; интегрированная классификация предложена в работе [Гаврилова, Чер-винская, 1992].

Учитывая новейшие тенденции в инженерии знаний можно предложить следующую схему таксономии СПЗ, представленную на рис. 4.16.

Рис. 4.16. Классификация систем приобретения знаний

Однако и современные СПЗ не полностью лишены серьезных недостатков СПЗ I и II поколений, большая часть которых обусловлена отсутствием теоретической концепции проектирования БЗ. В результате эта область до настоящего времени справедливо считается скорее «искусством», чем наукой и основана на «ad hoc» технологии (то есть применительно к случаю).