logo search
Моделирование систем / Моделирование систем / Теория / Dop / АИС_Конспект

3.6.1. Информационно-поисковый язык

Невозможность использования естественного языка (ЕЯ) в качестве основы для описания информации в документных ИПС, привело к необходимости применения искусственных языковых средств.

Информационно-поисковым языком (ИПЯ) называется специализированный искусственный язык, предназначенный для описания основного смыслового содержания поступающих в систему сообщений с целью обеспечения возможности последующего их поиска

ИПЯ создается на базе ЕЯ, однако отличается от него компактностью, наличием четких грамматических правил и отсутствием семантической неоднозначности.

ИПЯ подразделяют на два основных типа:

• классификационные языки;

• дескрипторные языки.

Принципиальная разница между данными типами языков заключена в процедуре построения предложений (фраз) языка. В классификационных языках в лексический состав наряду со словами, выражающими простые понятия, заранее включены также словосочетания и фразы, выражающие сложные понятия. Для записи смыслового содержания сообщения в таких ИПЯ используются только отдельные элементы из этого набора, в том числе и готовые сложные понятия. Фактически построение сложных синтаксических конструкций заменяется выбором соответствующего сложного понятия (в виде словосочетания или фразы) из готового набора. Например:

Политика.Внутренняя.Федеральная

Политика.Внутренняя.Региональная

...

Политика.Внешняя.

Таким образом, с помощью таких языков производится классифика­ция сообщений, т. е. отнесение их к классам, обозначенным лексическими единицами ИПЯ.

Частным случаем классификационного ИПЯ является рубрикатор, лексическими единицами которого являются названия тематических рубрик. В целом под рубрикатором некоторой предметной области понимается ориентированный граф, состоящий из независимых деревьев. Листья деревьев будем называть рубриками – объектами, инкапсулирующими знания о конкретных фрагментах данной предметной области. Все не листовые вершины являются классификационными родо–видовыми обобщениями листовых вершин и используются лишь при ведении информационного поиска.

Обычно рубрикатор формируется группой экспертов, на основании их знаний о предметной области с учетом информационных потребностей пользователей

Поскольку сложные понятия задаются заранее, до начала записи сообщений с помощью ИПЯ, образующие их слова связаны (скоординированы) определенными связями. Поэтому такие языки носят название предкоординируемых,

Другой тип языков составляют дескрипторные ИПЯ, в которых лексические единицы заранее не связаны никакими текстуальными отношениями. Сложные синтаксические конструкции – предложения или фразы создаются путем объединения лексических единиц во время процедуры представления смыслового содержания документов системы. Готовых предложений или фраз в таких языках нет, поэтому отсутствуют ограничения на составление сложных понятий. Фактически из небольшого числа лексических единиц данные языки позволяют строить предложения, выражающие практически любой смысл. Это посткоординируемые языки.

Различают дескрипторные ИПЯ с грамматикой и без грамматики. Пер­вые характеризуются наличием ряда жестких правил формирования син­таксических конструкций.

Например, при использовании дескрипторного ИПЯ с позиционной грамматикой, в котором при описании действий при­нято на первом месте записывать наименование действия, далее субъекта, а затем объекта этого действия, фраза: "Иванов владеет автомобилем" может выглядеть так: "владеть Иванов автомобиль".

В дескрипторных ИПЯ без грамматики такие правила отсутствуют. Приведенный выше пример может быть одинаково представлен последовательностями "владеть Иванов автомобиль", «Иванов владеть автомобиль" и т. п.

Кроме того, различают дескрипторные ИПЯ с контролируемой и со свободной лексикой. Лексический состав первых строго ограничен и зафиксирован в словаре ИПЯ, в то время как на лексический состав вторых не налагается никаких ограничений, и он может постоянно пополняться за счет включения новых лексических единиц.