logo
Программа ГЭ_спец_2012 ответы light

Системы распознавания образов (идентификации): обучение распознаванию образов, геометрический и структурный подходы, гипотеза компактности, адаптация и обучение.

Обучение распознаванию образов

Образ, класс — классификационная группировка в системе классификации, объединяющая (выделяющая) определенную группу объектов по некоторому признаку.

В целом проблема распознавания образов состоит из двух частей: обучения и распознавания. Обучение осуществляется путем показа отдельных объектов с указанием их принадлежности тому или другому образу. В результате обучения распознающая система должна приобрести способность реагировать одинаковыми реакциями на все объекты одного образа и различными — на все объекты различных образов. Очень важно, что процесс обучения должен завершиться только путем показов конечного числа объектов без каких-либо других подсказок. В качестве объектов обучения могут быть либо картинки, либо другие визуальные изображения (буквы), либо различные явления внешнего мира, например звуки, состояния организма при медицинском диагнозе, состояние технического объекта в системах управления и др. Важно, что в процессе обучения указываются только сами объекты и их принадлежность образу. За обучением следует процесс распознавания новых объектов, который характеризует действия уже обученной системы. Автоматизация этих процедур и составляет проблему обучения распознаванию образов. В том случае, когда человек сам разгадывает или придумывает, а затем навязывает машине правило классификации, проблема распознавания решается частично, так как основную и главную часть проблемы (обучение) человек берет на себя.

Выбор исходного описания объектов является одной из центральных задач проблемы ОРО. При удачном выборе исходного описания (пространства признаков) задача распознавания может оказаться тривиальной и, наоборот, неудачно выбранное исходное описание может привести либо к очень сложной дальнейшей переработку информации, либо вообще к отсутствию решения. Например, если решается задача распознавания объектов, отличающихся по цвету, а в качестве исходного описания выбраны сигналы, получаемые от датчиков веса, то задача распознавания в принципе не может быть решена.

Геометрический и структурный подходы.

Любое изображение, которое возникает в результате наблюдения какого-либо объекта в процессе обучения или экзамена, можно представить в виде вектора, а значит и в виде точки некоторого пространства признаков. Если утверждается, что при показе изображений возможно однозначно отнести их к одному из двух (или нескольких) образов, то тем самым утверждается, что в некотором пространстве существует две (или несколько) области, не имеющие общих точек, и что изображения — точки из этих областей. Каждой такой области можно приписать наименование, т. е. дать название, соответствующее образу.

В ходе обучения предъявляются точки, случайно выбранные из этих областей, и сообщается информация о том, к какой области принадлежат предъявляемые точки. Никакой дополнительной информации об этих областях, т. е. о расположении их границ, в ходе обучения не сообщается. Цель обучения состоит либо в построении поверхности, которая разделяла бы не только показанные в процессе обучения точки, но и все остальные точки, принадлежащие этим областям, либо в построении поверхностей, ограничивающих эти области так, чтобы в каждой из них находились только точки одного образа. Иначе говоря, цель обучения состоит в построении таких функций от векторов-изображений, которые была бы, например, положительны на всех точках одного и отрицательны на всех точках другого образа. В связи с тем, что области не имеют общих точек, всегда существует целое множество таких разделяющих функций, а в результате обучения должна быть построена одна из них.

Если предъявляемые изображения принадлежат не двум, а большему числу образов, то задача состоит в построении по показанным в ходе обучения точкам поверхности, разделяющей все области, соответствующие этим образам, друг от друга. Задача эта может быть решена, например, путем построения функции, принимающей над точками каждой из областей одинаковое значение, а над точками из разных областей значение этой функции должно быть различно.

На первый взгляд кажется, что знание всего лишь некоторого количества точек из области недостаточно, чтобы отделить всю область. Действительно, можно указать бесчисленное количество различных областей, которые содержат эти точки, и как бы ни была построена по ним поверхность, выделяющая область, всегда можно указать другую область, которая пересекает поверхность и вместе с тем содержит показанные точки. Однако известно, что задача о приближении функции по информации о ней в ограниченном множестве точек, существенно более узкой, чем все множество, на котором функция задана, является обычной математической задачей об аппроксимации функций. Разумеется, решение таких задач требует введения определенных ограничений на классе рассматриваемых функций, а выбор этих ограничений зависит от характера информации, которую может добавить учитель в процессе обучения. Одной из таких подсказок является гипотеза о компактности образов. Интуитивно ясно, что аппроксимация разделяющей функции будет задачей тем более легкой, чем более компактны и чем более разнесены в пространстве области, подлежащие разделению.

Наряду с геометрической интерпретацией проблемы обучения распознаванию образов существует и иной подход, который назван структурным, или лингвистическим. Сначала выделяется набор исходных понятий — типичных фрагментов, встречающихся на изображениях, и характеристик взаимного расположения фрагментов — "слева", "снизу", "внутри" и т. д. Эти исходные понятия образуют словарь, позволяющий строить различные логические высказывания, иногда называемые предположениями. Задача состоит в том, чтобы из большого количества высказываний, которые могли бы быть построены с использованием этих понятий, отобрать наиболее существенные для данного конкретного случая.

Далее, просматривая конечное и по возможности небольшое число объектов из каждого образа, нужно построить описание этих образов. Построенные описания должны быть столь полными, чтобы решить вопрос о том, к какому образу принадлежит данный объект. При реализации лингвистического подхода возникают две задачи: задача построения исходного словаря, т. е. набор типичных фрагментов, и задача построения правил описания из элементов заданного словаря.

В рамках лингвистической интерпретации проводится аналогия между структурой изображений и синтаксисом языка. Стремление к этой аналогии было вызвано возможностью использовать аппарат математической лингвистики, т. е. методы по своей природе являются синтаксическими. Использование аппарата математической лингвистики для описания структуры изображений можно применять только после того, как произведена сегментация изображений на составные части, т. е. выработаны слова для описания типичных фрагментов и методы их поиска. После предварительной работы, обеспечивающей выделение слов, возникают собственно лингвистические задачи, состоящие из задач автоматического грамматического разбора описаний для распознавания изображений. При этом проявляется самостоятельная область исследований, которая требует не только знания основ математической лингвистики, но и овладения приемами, которые разработаны специально для лингвистической обработки изображений.

Гипотеза компактности

Если предположить, что в процессе обучения пространство признаков формируется исходя из задуманной классификации, то тогда можно надеяться, что задание пространство признаков само по себе задает свойство, под действием которого образы в этом пространстве легко разделяются. Именно эти надежды по мере развития работ в области распознавания образов стимулировали появление гипотезы компактности, которая гласит: образам соответствуют компактные множества в пространстве признаков. Под компактным множеством пока будем понимать некие "сгустки" точек в пространстве изображений, предполагая, что между этими сгустками существуют разделяющие их разряжения.

Однако эту гипотезу не всегда удавалось подтвердить экспериментально, но, что самое главное, те задачи, в рамках которых гипотеза компактности хорошо выполнялась (Рис. 2а), все без исключения находили простое решение. И наоборот, те задачи, для которых гипотеза не подтверждалась (Рис. 2б), либо совсем не решались, либо решались с большим трудом с привлечением дополнительных ухищрений. Этот факт заставил по меньшей мере усомниться в справедливости гипотезы компактности, так как для опровержения любой гипотезы достаточно одного отрицающего ее примера. Вместе с этим, выполнение гипотезы всюду там, где удавалось хорошо решить задачу обучения распознаванию образов, сохраняло к этой гипотезе интерес. Сама гипотеза компактности превратилась в признак возможности удовлетворительного решения задач распознавания.

Формулировка гипотезы компактности подводит вплотную к понятию абстрактного образа. Если координаты пространства выбирать случайно, то и изображения в нем будут распределены случайно. Они будут в некоторых частях пространства располагаться более плотно, чем в других. Назовем некоторое случайно выбранное пространство абстрактным изображением. В этом абстрактном пространстве почти наверняка будут существовать компактные множества точек. Поэтому в соответствии с гипотезой компактности множества объектов, которым в абстрактном пространстве соответствуют компактные множества точек, разумно назвать абстрактными образами данного пространства.

Рис. 2. Два образа.

(тут 2 системы координат, на первой кружочки в одной куче, треугольнички в другой и идет четкое разделение их прямой линией, на второй с.к. и кружочки и треугольнички ближе друг к другу - и линия делит их сама извиваясь)

Адаптация и обучение

Обучением обычно называют процесс выработки в некоторой системе той или иной реакции на группы внешних идентичных сигналов путем многократного воздействия на систему внешней корректировки. Такую внешнюю корректировку в обучении принято называть "поощрениями" и "наказаниями". Механизм генерации этой корректировки практически полностью определяет алгоритм обучения. Самообучение отличается от обучения тем, что здесь дополнительная информация о верности реакции системе не сообщается.

Адаптация — это процесс изменения параметров и структуры системы, а возможно, и управляющих воздействий на основе текущей информации с целью достижения определенного состояния системы при начальной неопределенности и изменяющихся условиях работы.

Обучение — это процесс, в результате которого система постепенно приобретает способность отвечать нужными реакциями на определенные совокупности внешних воздействий, а адаптация — это подстройка параметров и структуры системы с целью достижения требуемого качества управления в условиях непрерывных изменений внешних условий.

  1. Методы обучения распознаванию образов - персептроны, нейронные сети, метод потенциальных функций, метод группового учета аргументов, метод предельных упрощений, коллективы решающих правил; методы и алгоритмы анализа структуры многомерных данных - кластерный анализ, иерархическое группирование.

Персептроны.

РИСУНОК 110-1 - Нейронная сеть

Один из методов решения задач ОРО основан на моделировании гипотетического механизма человеческого мозга. Примером такого направления в теории и практике проблемы ОРО является класс устройств, называемых персептронами. Персептроны при своем возникновении рассматривались только как эвристические модели механизма мозга. Впоследствии они стали основополагающей схемой в построении кусочно-линейных моделей, обучающихся распознаванию образов.

Персептрон состоит из совокупности чувствительных (сенсорных) элементов (S-элементов), на которые поступают входные сигналы. S-элементы случайным образом связаны с совокупностью ассоциативных элементов (А-элементов), выход которых отличается от нуля только тогда, когда возбуждено достаточно большое число S-элементов, воздействующих на один А-элемент. А-элементы соединены с реагирующими элементами (R-элементами) связями, коэффициенты усиления (v) которых переменны и изменяются в процессе обучения. Взвешенные комбинации выходов R-элементов составляют реакцию системы, которая указывает на принадлежность распознаваемого объекта определенному образу. Если распознаются только два образа, то в персептроне устанавливается только один R-элемент, который обладает двумя реакциями — положительной и отрицательной. Если образов больше двух, то для каждого образа устанавливают свой R-элемент, а выход каждого такого элемента представляет линейную комбинацию выходов A-элементов.

Персептрон обучается путем предъявления обучающей последовательности изображений объектов, принадлежащих образам V1 и V2. В процессе обучения изменяются веса vi А-элементов. В частности, если применяется система подкрепления с коррекцией ошибок, прежде всего учитывается правильность решения, принимаемого персептроном. Если решение правильно, то веса связей всех сработавших А-элементов, ведущих к R-элементу, выдавшему правильное решение, увеличиваются, а веса несработавших А-элементов остаются неизменными. После процесса обучения персептрон сам, без учителя, начинает классифицировать новые объекты.

Нейронные сети.

Соединенные определенным образом нейроны образуют нейронную сеть. Искусственные нейронные сети подразделяются на: 1) сети прямого действия (однослойный персептрон, многослойный персептрон, сети радиальных базисных функций); 2) рекуррентные (сеть Хопфильда, сеть Кохонена, соревновательные сети и модули ANT, сеть Хейминга).

Св-ва искусственных нейронных сетей: 1) обучение, т.е. они могут изменять свое поведение в зависимости от внешних условий; 2) обобщение (после обучения сеть становится нечувствительной к небольшим изменениям входных сигналов, то есть способна выделять образы сквозь шум); 3) абстрагирование – извлечение сущности из входных сигналов, то есть могут работать с данными, которых не было в процессе обучения.

Наиболее эффективно используются сети при решении следующих задач: 1) аппроксимация функций; 2) задачи идентификации или прогнозирования; 4) задачи управления; 5) классификация образов (классы определены заранее); 6) категоризация (классы неопределенны); 7) оптимизация.

В общем виде сеть представляется в виде направленного графа с взвешенными связями. Узлы графа – искусственные нейроны.

Обучение с учителем: 1) на вход подается 1 из образов и рассчитываются выходы; 2) вычисляется ошибка для выходного слоя; 3) корректируются все веса в нейронной сети; 4) если ошибка не существенна, то шаги прекращаются, иначе шаг 1.

Обучение без учителя: главная черта, делающая обучение без учителя привлекательным, – это его "самостоятельность". Процесс обучения заключается в подстраивании весов синапсов. Некоторые алгоритмы, могут изменять и структуру сети, то есть количество нейронов и их взаимосвязи, но такие преобразования называются – самоорганизацией. Подстройка синапсов может проводиться только на основании информации, доступной в нейроне, то есть о его состоянии и уже имеющихся весовых коэффициентах. Методы: сигнальный метод Хебба, алгоритм Кохонена, метод выпуклой комбинации, обучение методом соревнования, метод обжига.

Метод потенциальных функций.

В процессе обучения с каждой точкой пространства изображений, соответствующей единичному объекту из обучающей последовательности, связывается функция U(X, Xi), заданная на всем пространстве и зависящая от Xi как от параметра. Такие функции называются потенциальными, так как они напоминают функции потенциала электрического поля вокруг точечного электрического заряда. Изменение потенциала электрического поля по мере удаления от заряда обратно пропорционально квадрату расстояния. Если заряды, образующие поле, расположены компактной группой, потенциал поля будет иметь наибольшее значение внутри группы зарядов и убывать по мере удаления от нее.

Обучающей последовательности объектов соответствует последовательность векторов X1, X2, …, в пространстве изображений с которыми связана последовательность U(X, X1), U(X, X2), … потенциальных функций, используемых для построения функций f(X1, X2, …). По мере увеличения числа объектов в процессе обучения функция f должна стремиться к одной из разделяющих функций. В результате обучения могут быть построены потенциальные функции для каждого образа:

U1(X)=сумма(xi прин v1)U(X,Xi)

U2(X)=сумма(xi прин v2)U(X,Xi)

В качестве разделяющей функции f(X) можно выбрать функцию вида:

f(x)=U1(x)-U2(x): , которая положительна для объектов одного образа и отрицательна для объектов другого.

Алгоритмы данного метода различаются выбором потенциальных функций и видом функции коррекции потенциала.

Метод группового учета аргумента (МГУА).

Алгоритмы МГУА воспроизводят схему массовой селекции растений или животных. В них есть генераторы усложняющихся из ряда в ряд комбинаций и пороговые самоотборы лучших из них.

фи = f(x1,x2,x3,...,xm), где f — некоторая элементарная функция, например степенной полином, заменяется несколькими рядами "частных" описаний:

1-ряд селекции: y1= f(x1x2), y2= f(x1x3),..., ys= f(xm-1xm),

2-ряд селекции: z1= f(y1y2), z2= f(y1y2),..., zp= f(ys-1ys), где s=c2, p=cs2 и т.д.

Входные аргументы и промежуточные переменные сопрягаются попарно, и сложность комбинаций на каждом ряду обработки информации возрастает, пока не будет получена единственная модель оптимальной сложности.

Каждое частное описание является функцией только двух аргументов. Поэтому его коэффициенты легко определить по данным обучающей последовательности при малом числе узлов интерполяции. Из ряда в ряд селекции пропускается только некоторое количество самых регулярных переменных. Степень регулярности оценивается по величине среднеквадратичной ошибки на отдельной проверочной последовательности данных.

Ряды селекции наращиваются до тех пор, пока регулярность повышается. Как только достигнут минимум ошибки, селекцию следует остановить. Рекомендуется остановить селекцию даже несколько раньше достижения полного минимума, как только ошибка начинает падать слишком медленно.

Метод предельных упрощений (МПУ).

Выделяются 2 подхода к проблеме обучения распознавания образов: 1) основан на построении сложных разделяющих поверхностей в случайно выбранных пространствах; 2) основан на достижении понимания принципов формирования такого описания объектов, в рамках которого сам процесс распознавания чрезвычайно прост. Обучение в этом случае рассматривается как некий процесс конструирования пространств для решения конкретных задач.

В МПУ предполагается, что разделяющая функция задается заранее в виде линейного полинома, а процесс обучения состоит в конструировании такого пространства минимальной размерности, в котором заранее задан. простая разделяющая функция безошибочно разделяет обучающую последовательность.

Пусть на некотором множестве объектов V заданы два подмножества V*1 и V*2, определяющих собой образы на обучающей последовательности V. Рассмотрим i-е свойство объектов, такое, что некоторые объекты обучающей последовательности этим свойством обладают, а другие — нет. Пусть заданным свойством обладают объекты, образующие подмножество V1i, а объекты подмножества V2i этим свойством не обладают (V1i U V2i = V). Тогда i-е свойство называют признаком первого типа относительно образа V*1, если выполняются соотношения V1* входит в Vi1 и V1i ^ V2* не равно V2* и признаком второго типа, если выполняются V1* входит в V1i и V1i ^ V2* = {пустое мн-во} .

Доказано утверждение, что если пространство конструировать из однотипных, но неодинаковых признаков, то в конце концов будет построено такое пространство, в котором обучающая последовательность будет безошибочно разделена на два образа линейным, т. е. самым простым, решающим правилом.

Метод предельных упрощений: 1) последовательно проверяются все свойства объектов и из них выбираются только такие, которые являются 1-м или 2-м признаком; 2) такой отбор однотипных, но неодинаковых признаков продолжается до тех пор, пока при некотором значении размерности пространства не наступит безошибочное линейное разделение образов на обучающей последовательности; 3) каждый объект относится к одному из образов в зависимости от того, по какую сторону относительно плоскости находится соответствующий этому объекту вектор в пространстве признаков размерности n.

Коллективы решающих правил.

Основа метода – идея коллективного решения.

Для рацион. использования особенностей различных алгоритмов при решении задач распознавания возможно объединить разные алгоритмы распозна¬вания в коллективы, формирующие классификац. решение на основе правил, принятых в теории коллективных решений. Пусть в некоторой ситуации Х принимается решение S. Тогда S=R(X), где R—алгоритм принятия решения в ситуации X. Предположим, что существует L различных алгоритмов решения задачи, т. е. Sl=Rl(X), l=1, 2, ... , L, где Sl—решение, получен¬ное алгоритмом Rl. Множество алгоритмов {R}={R1, R2, ..., Ri.}- коллектив алгоритмов решения задачи, если на множестве решений Sl в любой ситуации Х определено решающее правило F, т. е. S=F(S1, S2, ..., SL, X). Алгоритмы Rl - члены коллектива, Sl — решение l-го члена коллектива, а S — коллек¬тивное решение. Функция F определяет способ обобщения ин¬дивидуальных решений в решения коллектива S. Поэтому синтез функции F, или способ обобщения, является центральным момен¬том в организации коллектива.

Принятие коллективного решения может быть использовано при решении различных задач. Так, в задаче управления под си¬туацией понимается ситуация среды и целей управления, а под решением — самоуправление, приводящее объект в целевое состоя¬ние. В задачах прогноза Х — исходное, а S — прогнозируемое состояние. В задачах распознавания ситуацией Х является опи¬сание объекта X, т. е. его изображение, а решением S — номер образа, к которому принадлежит наблюдаемое изображение. Индивидуальное и коллективное решения в задаче распозна¬вания состоят в отнесении некоторого изображения к одному из образов. Наиболее интересными коллективами распознающих ал¬горитмов являются такие, в которых существует зависимость веса каждого решающего правила Rl от распознаваемого изображения.

Кластерный анализ.

Кластерный анализ предназначен для разбиения множест¬ва объектов на заданное или неизвестное число классов на основании некоторого математического критерия качества классификации (кластер - группа элементов, характеризуемых каким-либо общим свой¬ством). Критерий качества кластеризации отражают требования:

1) внутри групп объекты должны быть тесно связаны между собой;

2) объекты разных групп должны быть далеки друг от друга;

3) при прочих равных условиях распределения объектов по группам должны быть равномерными.

При кластерном анализе необходимо выбрать: 1) метрику (или меры близости объектов), от которого зависит окончательный вариант разбиения объектов на группы при заданном алгоритме разбиения; 2) расстояние между целыми группами объектов.. Пусть wi — i-я группа (кластер) объектов, Ni — число объектов, образующих группу wi, вектор МЮi — среднее арифме¬тическое объектов, входящих в wi (другими словами [МЮi — «центр тяжести» i-й группы), a q ( wl, wm ) — расстояние меж¬ду группами wl и wm.

1 — по центрам тяжести, 2 — по ближайшим объектам, 3 — по самым далеким объектам

Расстояние ближайшего соседа есть расстояние между бли¬жайшими объектами кластеров. Расстояние дальнего соседа — расстояние между самыми дальними объектами кластеров. Расстояние центров тяжести равно расстоянию между центральными точками кластеров.

Выбор той или иной меры расстояния между кластерами влияет, на вид выделяемых алгоритмами кла¬стерного анализа геометрических группировок объектов в пространстве признаков. Алгоритмы, основанные на расстоянии ближайшего соседа, хорошо работают в случае группировок, имеющих цепочечную структуру. Расстояние дальнего соседа применяется, когда ис¬комые группировки образуют в пространстве признаков шаровидные облака. Расстояния центров тяжести и средней связи, которые лучше всего работают в случае группировок эл¬липсоидной формы.

Алгоритмы кластерного анализа отличаются большим разнообразием. Это могут быть, например, алгоритмы, реализу¬ющие полный перебор сочетаний объектов или осуществляю¬щие случайные разбиения множества объектов. В то же время большинство таких алгоритмов состоит из двух этапов: 1) задается начальное разбиение множества объектов на классы и определяется некоторый математический критерий качества автоматической классификации; 2) объек¬ты переносятся из класса в класс до тех пор, пока значение критерия не перестанет улучшаться.

Многообразие алгоритмов кластерного анализа обусловле¬но также множеством различных критериев (расстояния между кластерами, но не учит-ся «населенность» кластеров; средние расстояний между объектами внутри кла¬стеров; от¬ношение показателей «населенности кластеров к расстоянию между ними).

Иерархическое группирование.

Классификационные процедуры иерархического типа предназначены для получения наглядного представления о структуре всей исследуемой совокупности объектов. Эти процедуры основаны на последовательном объе¬динении кластеров (агломеративные процедуры) и на последо¬вательном разбиении (дивизимные процедуры).

Агломер. процедуры применяются чаще. Послед-ность операций в таких процедурах: сначала все объекты считаются отдельными кла¬стерами. На каждом последующем шаге 2 ближайших кластера объединяются в один. Каждое объединение уменьшает число кластеров на 1 так, что, в конце все объекты объединяются в 1 кластер. Наиболее подходящее разбиение выбирает сам исследователь, которому предостав¬ляется дендрограмма, отображ. результаты групп-ия объектов на всех шагах алгоритма. Могут од¬новременно использоваться и математ. критерии качества группния.

Разные варианты определения расстояния между кла¬стерами дают различные варианты иерархических агломер. процедур. Для задания расстояния между классами достаточно указать порядок пересчета расстояний между классом wl и классом w(m, n) являющимся объединением двух других классов wm и wn по расстояниям qmn = q(wm, wn) и qln = q(wl, wn) между этими классами. Предлагается следующая общая формула для вычисления расстояния между некоторым классом wl и классом w(m, n):

ql(m, n) = q (wl, w(m, n)) = альфаqlm + бетаqln + каммаqmn + дельта | qlm - qln |

где альфа, бета, камма и дельта — числовые коэффициенты, определяющие на¬целенность агломерат. процедуры на решение той или иной экстремальной задачи.

Иерарх. процедуры позволяют проследить процесс выделения группировок и показывают соподчиненность кластеров, образующихся на разных шагах ка¬кого-либо агломерат. или дивизимного алгоритма. Это стимулирует воображение исследователя и помогает ему привлекать для оценки структуры данных дополнительные формальные и неформальные представления.

  1. Представление знаний, рассуждений и задач; эпистомологическая полнота представления знаний и эвристически эффективные стратегии поиска решения задач; модели представления знаний: алгоритмические, логические, сетевые и продукционные модели; сценарии.

Проблема представления знаний для интеллектуальных систем (ИС) чрезвычайно актуальна, т.к. ИС - это система, функционирование которой опирается на знания о проблемной области, которые хранятся в ее памяти. По мере развития исследований в области ИС возникла концепция знаний, которые объединили в себе многие черты процедурной и декларативной информации. В ЭВМ знания так же, как и данные, отображаются в знаковой форме - в виде формул, текста, файлов, информационных массивов и т.п. Поэтому можно сказать, что знания - это особым образом организованные данные. Но это было бы слишком узкое понимание. А между тем, в системах ИИ знания являются основным объектом формирования, обработки и исследования. База знаний, наравне с базой данных, - необходимая составляющая программного комплекса ИИ. Машины, реализующие алгоритмы ИИ, называются машинами, основанными на знаниях, а подраздел теории ИИ, связанный с построением экспертных систем - инженерией знаний. Представление - это действие, делающее некоторое понятие воспринимаемым посредством фигуры, записи, языка или формализма. Теория знаний изучает связи между субъектом (изучающим) и объектом. Знание (в объективном смысле) - то, что известно (то, что знаем после изучения).

Представление знаний- формализация истинных убеждений посредством фигур, записей или языков. Нас особенно интересуют формализации, воспринимаемые (распознаваемые) ЭВМ. Возникает вопрос о представлении знаний в памяти ЭВМ, т.е. о создании языков и формализмов представления знаний. Они преобразуют наглядное представление (созданное посредством речи, изображением, естественным языком, вроде английского или немецкого, формальным языком, вроде алгебры или логики, рассуждениями и т.д.) в пригодное для ввода и обработки в ЭВМ. Результат формализации должен быть множеством инструкций, составляющих часть языка программирования. Представлению знаний присущ пассивный аспект: книга, таблица, заполненная информацией память. В ИИ подчеркивается активный аспект представления: знать должно стать активной операцией, позволяющей не только запоминать, но и извлекать воспринятые (приобретенные, усвоенные) знания для рассуждений на их основе. Следовательно, истоки представления знаний - в науке о познании, а его конечная цель - программные средства информатики. Для характеристики некой области говорят об "области рассуждений" или "области экспертизы". Численная формализация таких описаний в общем мало эффективна. Напротив, использование символического языка, такого, как язык математической логики, позволяет формулировать описания в форме, одновременно близкой и к обычному языку, и к языку программирования. Впрочем, математическая логика позволяет рассуждать, базируясь на приобретенных знаниях: логические выводы действительно являются активными операциями получения новых знаний из усвоенных.

Логические модели представления знаний. В основе моделей такого типа лежит формальная система, задаваемая четверкой вида: M = <T, P, A, B>. Множество T есть множество базовых элементов различной природы, например слов из некоторого ограниченного словаря, деталей детского конструктора, входящих в состав некоторого набора и т.п. Важно, что для множества T существует некоторый способ определения принадлежности или непринадлежности произвольного элемента к этому множеству. Процедура такой проверки может быть любой, но за конечное число шагов она должна давать положительный или отрицательный ответ на вопрос, является ли x элементом множества T. Обозначим эту процедуру П(T). Множество P есть множество синтаксических правил. С их помощью из элементов T образуют синтаксически правильные совокупности. В множестве синтаксически правильных совокупностей выделяется некоторое подмножество A. Элементы A называются аксиомами. Как и для других составляющих формальной системы, должна существовать процедура П(A), с помощью которой для любой синтаксически правильной совокупности можно получить ответ на вопрос о принадлежности ее к множеству A. Множество B есть множество правил вывода. Применяя их к элементам A, можно получать новые синтаксически правильные совокупности, к которым снова можно применять правила из B. Так формируется множество выводимых в данной формальной системе совокупностей.

Алгоритмические модели основаны на понятии алгоритма. Исторически первые точные определения алгоритма, возникшие в 30-х годах, были связаны с понятием вычислимости. С тех пор было предложено множество, как выяснилось, эквивалентных определений алгоритма. С точки зрения программирования на алгоритмических языках достоинства подобного представления очевидны — эта блок-схема без затруднений переводится в текст программы, например, на языке Ассемблера или С++. Однако само составление подобной блок-схемы при появлении существительных новых типов становится, очевидно, все более и более утомительным занятием. Разумеется программист без особого труда составит соответствующую блок-схему алгоритма. И все же, если учесть, что подобные изменения и расширения алгоритма при программировании неформальных процедур происходят многократно (реальная сложность неформальной процедуры как раз и проявляется в практической невозможности предусмотреть заранее все случаи), следует признать, что, вполне правильное в статике, решение – в динамике неудачно!

Сетевые модели. В основе моделей этого типа лежит конструкция, названная ранее семантической сетью. Сетевые модели формально можно задать в виде H = <I, C1, C2, ..., Cn, Г>. Здесь I есть множество информационных единиц; C1, C2, ..., Cn - множество типов связей между информационными единицами. Отображение Г задает между информационными единицами, входящими в I, связи из заданного набора типов связей. В зависимости от типов связей, используемых в модели, различают классифицирующие сети, функциональные сети и сценарии. В классифицирующих сетях используются отношения структуризации. Такие сети позволяют в базах знаний вводить разные иерархические отношения между информационными единицами. Функциональные сети характеризуются наличием функциональных отношений. Их часто называют вычислительными моделями, т.к. они позволяют описывать процедуры "вычислений" одних информационных единиц через другие. В сценариях используются каузальные отношения, а также отношения типов "средство - результат", "орудие - действие" и т.п. Если в сетевой модели допускаются связи различного типа, то ее обычно называют семантической сетью.

Продукционные модели. В моделях этого типа используются некоторые элементы логических и сетевых моделей. Из логических моделей заимствована идея правил вывода, которые здесь называются продукциями, а из сетевых моделей - описание знаний в виде семантической сети. В результате применения правил вывода к фрагментам сетевого описания происходит трансформация семантической сети за счет смены ее фрагментов, наращивания сети и исключения из нее ненужных фрагментов. Таким образом, в продукционных моделях процедурная информация явно выделена и описывается иными средствами, чем декларативная информация. Вместо логического вывода, характерного для логических моделей, в продукционных моделях появляется вывод на знаниях.