logo
ГОСы / FBI_IIS_2016

Понятие онтологии. Классификация онтологий и их применение.

По степени формальности (ниже черты машино-понятные, выше черты человеко-понятные):

Первой точке на спектре соответствует контролируемый словарь, т.е. конечный список терминов (простейшим примером является каталог на основе идентификаторов). Каталоги представляют точную (не многозначную) интерпретацию терминов. Например, каждый раз, ссылаясь на термин "машина", мы будем использовать одно и то же значение (соответствующее некоторому ID в словаре), вне зависимости от того, о чем идет речь в контексте: о "стиральной машине", "автомобиле" или "государственной машине".

Другой спецификацией онтологии может быть глоссарий, представляющий собой список терминов с их значениями. Значения описываются в виде комментариев на естественном языке. Это дает больше информации, поскольку люди могут прочесть такой комментарий и понять смысл термина. Интерпретации терминов могут быть многозначными. Глоссарии непригодны для автоматической обработки программными агентами, но можно, как и ранее, присвоить терминам ID.

Тезаурусы несут дополнительную семантику, определяя связи между терминами. Отношения, свойственные для тезаурусов: синонимия, иерархическое отношение и ассоциация. Ранние иерархии терминов, появившиеся в Сети, определяли термины через операции обобщения и уточнения. Yahoo, например, ввела небольшое число категорий верхнего уровня, таких, как " предметы одежды ". Затем " платье " определялось как вид (женской) одежды. Явная иерархия Yahoo не соответствовала в точности формальным свойствам иерархического отношения ПОДКЛАСС-КЛАСС. В таких иерархиях может встретиться ситуация, в которой экземпляр класса-потомка не является экземпляром класса-предка. Например, общая категория " предметы одежды " имеет подкатегорию " женские " (которая должна была бы более точно называться " женские предметы одежды "), а эта категория, в свою очередь, включает подкатегории " аксессуары " и " платья ". Ясно, что аксессуары, например " броши ", не являются предметами одежды. Здесь не выполняется важное свойство отношения ПОДКЛАСС-КЛАСС - транзитивность.

Далее следует точка формальные таксономии. Эта разновидность онтологий включает точное определение отношения ПОДКЛАСС-КЛАСС (обозначаемого как isA ). В таких системах строго соблюдается транзитивность отношения isA: если A является подклассом класса B, то каждый подкласс класса A также является подклассом класса B. Строгая иерархия классов необходима при использовании наследования для процедуры логического вывода.

Следующая точка спектра - наличие в онтологической системе формального отношения ЭКЗЕМПЛЯР-КЛАСС (обозначаемого как isInstanceOf ). Некоторые классификации включают только имена классов, другие содержат на нижнем уровне экземпляры (индивиды). Для отношения ЭКЗЕМПЛЯР-КЛАСС выполняется так называемая "наследуемость" вдоль отношения isA: если A является подклассом класса B, то каждый экземпляр класса A также является экземпляром класса B. Поэтому в приведенном выше примере " броши " не могут быть помещены в иерархии ниже " предмет одежды ", даже в подкатегорию " женские предметы одежды ", или стать экземпляром этой категории.

Далее среди структурных элементов появляются слоты. Здесь классы (иногда их называют фреймами ) могут иметь информацию о свойствах (слотах). Например, класс " предмет одежды " может иметь свойства " цена ", " сделан из ". Свойства бывают особенно полезными, когда они определены на верхних уровнях иерархии и наследуются подклассами. Так, в потребительской иерархии класс " продукт " может иметь свойство " цена ", которое получат все его подклассы.

Большей выразительностью обладают онтологии, включающие ограничения на область значений свойств. Значения свойств берутся из некоторого предопределенного множества (целые числа, символьные константы) или из подмножества концептов онтологии (множество экземпляров данного класса, множество классов). Можно ввести дополнительные ограничения на то, что может заполнять свойство. Например, для свойства " сделан из " класса " предмет одежды " значения могут быть ограничены экземплярами класса " материал ". Легко увидеть проблемы, которые могут возникнуть в этом случае при использовании нестрогой таксономии. Если " духи " - потомок класса " предмет одежды ", то он унаследует свойство " сделан из " вместе с ограничением на его значения (" материал ").

Области применения онтологий

Можно говорить о неявном применении онтологий в качестве систем понятий в естественных науках (биология, медицина, геология и другие), где они служат своего рода фундаментом для построения теорий. Поскольку классификационная структура (таксономия) является неотъемлемой частью любой онтологии, можно говорить о присутствии элементов онтологий в специальных классификациях и системах индексации (например, в библиотечных классификационных кодах).

В явном виде онтологии используются как источники данных для многих компьютерных приложений (для информационного поиска, анализа текстов, извлечения знаний и в других информационных технологиях), позволяя более эффективно обрабатывать сложную и разнообразную информацию. Этот способ представления знаний позволяет приложениям распознавать те семантические отличия, которые являются само собой разумеющимися для людей, но не известны компьютеру.

Используется в:

машинном переводе;

вопросно-ответных системах;

информационном поиске;

системах извлечения знаний;

общих системах ведения диалога между компьютером и человеком;

системах понимания языка (автоматическое реферирование текста, рубрикация)

Конкретные примеры:

1. Семантическая паутина (Semantic web) — это общедоступная глобальная семантическая сеть, формируемая на базе Всемирной паутины путём стандартизации представления информации в виде, пригодном для машинной обработки. Суть ее состоит в автоматизации "интеллектуальных" задач обработки значения (в семантическом смысле) тех или иных ресурсов, имеющихся в Сети. Обработкой и обменом информации должны заниматься не люди, а специальные интеллектуальные агенты (программы, размещенные в Сети). Но для того, чтобы взаимодействовать между собой, агенты должны иметь общее (разделяемое всеми) формальное представление значения для любого ресурса. Именно для цели представления общей, явной и формальной спецификации значения в Semantic Web используются онтологии.

В обычной Всемирной паутине, основанной на HTML-страницах, информация заложена в тексте страниц и предназначена для чтения и понимания человеком. Семантическая паутина состоит из машинно-читаемых элементов — узлов семантической сети, с опорой на онтологии. Благодаря этому программы-клиенты получают возможность непосредственно получать из интернета утверждения вида «предмет — вид взаимосвязи — другой предмет» и вычислять по ним логические заключения. Семантическая паутина работает параллельно с обычной Всемирной паутиной и на её основе, используя протокол HTTP и идентификаторы ресурсов URI.

2. Информационный поиск

В современных поисковых системах тексты автоматически индексируются по набору слов, составляющих эти тексты.

Такое представление текстов как простого набора слов ("bag of words") имеет большое количество очевидных недостатков, затрудняющих поиск релевантных текстов, например:

избыточность - в пословном индексе используются слова-синонимы, выражающие одни и те же понятия;

слова текста считаются независимыми друг от друга, что не соответствует свойствам связного текста;

многозначность слов - поскольку многозначные слова могут рассматриваться как дизъюнкция двух или более понятий, выражающих различные значения многозначного слова, то маловероятно, что все элементы этой дизъюнкции интересуют пользователя.

Этих недостатков лишено так называемое концептуальное индексирование, то есть такое индексирование, когда текст индексируется не по словам, а по понятиям, которые обсуждаются в данном тексте. При такой технологии:

все синонимы сведены к одному и тому же понятию;

многозначные слова отнесены к разным понятиям;

связи между понятиями и соответствующими словами описаны и могут быть использованы при анализе текста.

Для того чтобы попытаться реализовать схему автоматического концептуального индексирования и концептуального поиска, необходимо иметь ресурс, описывающий систему понятий данной предметной области, то есть онтологию в данной предметной области.

Нужно отметить, что использование онтологий для информационного поиска в реальных широких предметных областях имеет ряд особенностей:

эта онтология должна быть очень большой величины;

понятия онтологии должны иметь аккуратно установленные связи с языковыми единицами - терминами предметной области;

онтология реальной предметной области не может быть полной, поэтому методы информационного поиска на основе онтологий должны сочетаться с методами информационного поиска на основе пословных методов в едином поисковом механизме;

задача информационного поиска предполагает использование онтологий для анализа свободных неограниченных связных текстов, для которых не существует хорошо развитых методов автоматической обработки.

3. Интеграция разнородных источников данных

Интеграция разнородных источников данных - фундаментальная проблема, возникшая в последние десятилетия перед сообществом разработчиков БД. Цель интеграции данных состоит в том, чтобы предоставить единый интерфейс к различным источникам и позволить пользователям сосредоточиться на определении того, что они хотят узнать. В результате интеграция должна освободить пользователя от поиска релевантных источников данных, взаимодействия с ними по отдельности, отбора и комбинирования данных из различных источников. Проектирование системы интеграции данных - очень сложная задача.

Онтологический подход может успешно применяться для решения двух подзадач:

спецификации содержимого разнородных источников данных в виде онтологии (моделирование концептуальных схем БД при помощи онтологий);

получения ответов на запросы, адресованные интегрирующей системе и основанные на спецификации источников.