logo
Базы знаний интелл

3.2. Стратегии получения знаний

При формировании поля знаний ключевым вопросом является сам процесс получения знаний, когда происходит перенос компетентности экспертов на инженеров по знаниям. Для названия этого процесса в литературе по ЭС получило распространение несколько терминов: приобретение, добыча, извлечение, получение, выявление, формирование знаний. В англоязычной специальной литературе в основном используются два: acquisition (приобретение) и elicitation (выявление, извлечение, установление).

Термин «приобретение» трактуется либо очень широко — тогда он включает весь процесс передачи знаний от эксперта к базе знаний ЭС, либо уже как способ автоматизированного построения базы знаний посредством диалога эксперта и специальной программы (при этом структура поля знаний заранее закладывается в программу). В обоих случаях термин «приобретение» не касается самого таинства экстрагирования структуры знаний из потока информации о предметной области. Этот процесс описывается понятием «извлечение».

Авторы склонны использовать этот термин как более емкий и более точно выражающий смысл процедуры переноса компетентности эксперта через инженера по знаниям в базу знаний ЭС.

Извлечение знаний (knowledge elicitation) — это процедура взаимодействия эксперта с источником знаний, в результате которой становятся явными процесс рассуждений специалистов при принятии решения и структура их представлений о предметной области.

В настоящее время большинство разработчиков ЭС отмечает, что процесс извлечения знаний остается самым «узким» местом при построении промышленных ЭС. При этом им приходится практически самостоятельно разрабатывать методы извлечения, сталкиваясь со следующими трудностями [Gaines, 1989]:

• организационные неувязки;

• неудачный метод извлечения, не совпадающий со структурой знаний в данной области;

• неадекватная модель (язык) для представления знаний.

Можно добавить к этому [Гаврилова, Червинская, 1992]:

• неумение наладить контакт с экспертом;

• терминологический разнобой;

• отсутствие целостной системы знаний в результате извлечения только «фрагментов»;

• упрощение «картины мира» эксперта и др.

Процесс извлечения знаний — это длительная и трудоемкая процедура, в которой инженеру по знаниям, вооруженному специальными знаниями по когнитивной психологии, системному анализу, математической логике и пр., необходимо воссоздать модель предметной области, которой пользуются эксперты для принятия решения. Часто начинающие разработчики ЭС, желая упростить эту процедуру, пытаются подменить инженера по знаниям самим экспертом. По многим причинам это нежелательно.

Во-первых, большая часть знаний эксперта — это результат многочисленных наслоений, ступеней опыта. И часто, зная, что из А следует В, эксперт не отдает себе отчета, что цепочка его рассуждений была гораздо длиннее, например А  D  С  В или А  Q  R  В.

Во-вторых, как было известно еще Платону, мышление диалогично. И поэтому диалог инженера по знаниям и эксперта — наиболее естественная форма изучения лабиринтов памяти эксперта, в которых хранятся знания, частью носящие невербальный характер, то есть выраженные не в форме слов, а в форме наглядных образов, например. И именно в процессе объяснения инженеру по знаниям эксперт на эти размытые ассоциативные образы надевает четкие словесные ярлыки, то есть вербализует знания.

В-третьих, эксперту труднее создать модель предметной области вследствие глубины и объема информации, которой он владеет. Еще в ситуационном управлении [Поспелов, 1986] было выявлено: объекты реального мира связаны более чем 200 типами отношений (временные, пространственные, причинно-следственные, типа «часть—целое» и др.). Эти отношения и связи предметной области образуют сложную систему, из которой выделить «скелет» или главную структуру иногда доступнее аналитику, владеющему к тому же системной методологией.

Термин «приобретение» в рамках данного учебника оставлен за автоматизированными системами прямого общения с экспертом. Они действительно непосредственно приобретают уже готовые фрагменты знаний в соответствии со структурами, заложенными разработчиками систем. Большинство этих инструментальных средств специально ориентировано на конкретные ЭС с жестко обозначенной предметной областью и моделью представления знаний, то есть не являются универсальными.

Н

Приобретение знаний (knowledge acquisition) — процесс наполнения базы знаний экспертом с использованием специализированных программных средств.

апример, система TEIRESIAS [Davis, 1982], ставшая прародительницей всех инструментариев для приобретения знаний, предназначена для пополнения базы знаний системы MYCIN или ее дочерних ветвей, построенных на «оболочке» EMYCIN [Shortliffe, 1976] в области медицинской диагностики с использованием продукционной модели представления знаний. Три поколения и основные тенденции СПЗ будут подробно описаны в параграфе 4.5. Более современные конкретные системы описаны далее в параграфе 4.6.

Термин формирование знаний традиционно закрепился за чрезвычайно перспективной и активно развивающейся областью инженерии знаний, которая занимается разработкой моделей, методов и алгоритмов обучения. Она включает индуктивные модели формирования знаний и автоматического порождения гипотез, например ДСМ-метод [Аншаков, Скворцов, Финн, 1986] на основе обучающих выборок, обучение по аналогии и другие методы. Эти модели позволяют выявить причинно-следственные эмпирические зависимости в базах данных с неполной информацией, содержащих структурированные числовые и символьные объекты (часто в условиях неполноты информации).

Формирование знаний (machine /earning) — процесс анализа данных и выявление скрытых закономерностей с использованием специального математического аппарата и программных средств.

Традиционно к задачам формирования знаний или машинного обучения относятся задачи прогнозирования, идентификация (синтеза) функций, расшифровки языков, индуктивного вывода и синтеза с дополнительной информацией [Епифанов, 1984]. В широком смысле к обучению по примерам можно отнести и методы обучения распознаванию образов [Аткинсон, 1989; Schwartz, 1988].

Индуктивный вывод правил из фактов применен также в системах AQ, AQUINAS, KSS1, INSTIL и некоторых других.

Наиболее продвинутыми среди методов машинного обучения являются, по-видимому, методы распознавания образов, в частности, алгебраический подход, в котором предусматривается обогащение исходных эвристических алгоритмов с помощью алгебраических операций и построение семейства алгоритмов, гарантирующего получение корректного алгоритма для решения изучаемого класса задач, то есть алгоритма, правильно классифицирующего конечную выборку по всем классам [Берков, 1972]. Однако применение методов формирования знаний пока не стало промышленной технологией разработки баз знаний.

Для того чтобы эти методы стали элементами технологии интеллектуальных систем, необходимо решить ряд задач [Осипов, 1997]:

• обеспечить механизм сопряжения независимо созданных баз данных, имеющих различные схемы, с базами знаний интеллектуальных систем;

• установить соответствие между набором полей базы данных и множеством элементов декларативной компоненты базы знаний;

• выполнить преобразование результата работы алгоритма обучения в способ представления, поддерживаемый программными средствами интеллектуальной системы.

Помимо перечисленных существуют также и другие стратегии получения знаний, например, в случае обучения на примерах (case-based reasoning), когда источник знаний — это множество примеров предметной области [Осипов, 1997; Попов, Фоминых, Кисель, 1996]. Обучение на основе примеров (прецедентов) включает настройку алгоритма распознавания на задачу посредством предъявления примеров, классификация которых известна [Ибер-ла, 1980].

Обучение на примерах тесно связано с машинным обучением. Различие заключается в том, что результат обучения в рассматриваемом здесь случае должен быть интерпретирован в некоторой модели, в которой, возможно, уже содержатся факты и закономерности предметной области, и преобразован в способ представления, который допускает использование результата обучения в базе знаний, для моделирования рассуждений, для работы механизма объяснения и т. д., то есть делает результат обучения элементом соответствующей технологии.

Например, в системе INDUCE [Коов и др., 1988] порождается непротиворечивое описание некоторого класса объектов по множествам примеров и контр-примеров данного класса. В качестве языка представления используется язык перемен-но-значной логики первого порядка (вариант языка многозначной логики первого порядка).

Следует отметить также появление двух новых «флагов» в стане сторонников методов машинного обучения — это data mining и knowledge discovery. Оба подхода базируются на анализе данных и поиске закономерностей.

Таким образом, можно выделить три основные стратегии проведения стадии получения знаний при разработке ЭС (рис. 3.6).

Рис. 3.6. Стратегии получения знаний

1. С использованием ЭВМ при наличии подходящего программного инструментария, иначе приобретение знаний.

2. С использованием программ обучения при наличии репрезентативной (то есть достаточно представительной) выборки примеров принятия решений в предметной области и соответствующих пакетов прикладных программ, иначе формирование знаний.

3. Без использования вычислительной техники путем непосредственного контакта инженера по знаниям и источника знаний (будь то эксперт, специальная литература или другие источники), иначе извлечение знаний.

В учебнике подробно будут рассматриваться процессы извлечения и приобретения знаний, так как на современном этапе разработки ЭС эти стратегии являются наиболее эффективными и перспективными. Формирование знаний, тяготеющее в большей степени к области machine learning, то есть индуктивному обучению, основываясь на хорошо исследованном аппарате распознавания образов [Гаек, Гавранек, 1983] и обнаружения сходства объектов [Гусакова, Финн, 1987], выходит за рамки данного учебника. Также вне этой книги остались вопросы формирования знаний из данных (data mining, knowledge discovery) и др.