logo
Основы_информатики

1.Устранение синонимии

Как правило, ключевые слова – это термины; в основном они однозначны, но иногда встречаются и синонимы.

Бесконтрольное употребление синонимов усложняет процедуру проведения информационного поиска, т.е. возникает информационный шум, когда информация либо не отвечает вопросам, либо теряется. Следовательно, синонимию необходимо устранять.

1)для устранения синонимии, ключевые слова объединяют в семантические ряды (т.е. группируются в классы условной эквивалентности).

2)в каждом классе условной эквивалентности выбирается доминанта, которая называет этот класс и становится дескриптором.

2.Многозначность – это способность слова иметь несколько различных значений. В естественных языках причиной многозначности слов является равноимённость, т.е. употребление одного и того же имени или знака для обозначения не одного, а нескольких различных предметов.

Равноимённость проявляется в двух языковых явлениях:

а) полисемия;

б) омонимия.

Полисемия – это перенос названия одного предмета на другой предмет, имеющий с ним какие-либо общие признаки или свойства. Омонимия – совпадение (в звучании или написании) разных слов, которые не имеют ничего общего по признакам.

Пример. Полисемия и её устранение:

Итак, синонимия, полисемия и омонимия устраняются лексикографически, т.е. с помощью систем отсылок или помет при построении тезауруса.

Пример. Устранение синонимии. Возьмём три синонима:

Абстрактный вкл умозрительный, отвлеченный

Б…

В…

Отвлеченный см. АБСТРАКТНЫЙ

Умозрительный см. АБСТРАКТНЫЙ

3.Парадигматические отношения – отношения между словам, означающими, которые основаны на существовании тех или иных связей между означаемыми («род-вид»).

Отражение отношений «род-вид» в тезаурусе:

--лексикографический способ (при помощи систем отсылок и помет)

Пример. Структура словарной статьи ЭВМ:

ЭВМзаглавный дескриптор

С

электронно-вычислительная машина

множество синонимов

 

 

машина

с определенными пометами

Р

устройство для вычисления

множество родовых дескрипторов

В

ПК, персональный компьютер

множество видовых дескрипторов

 

Супер ЭВМ

 

 

 

 

 

 

АД

клавиатура

ассоциативные дескрипторы

 

 

 

 

 

(чаще всего "часть-целое")

Э ВМ – заглавный дескриптор, все остальные слова – ключевые. Это значит, что при индексировании (ЕЯ ИПЯ) мы обратимся к тезаурусу и заменим электронно-выч. машины и остальные дескрипторы на ЭВМ.

--табличный способ (устранение парадигматических отношений с помощью таблицы)

Дескриптор

Синоним

Родовой дескриптор

 

Видовой дескриптор

 

Ассоциативный дескриптор

 

 

 

 

 

 

 

ЭВМ

эл. вычисл

устройство для

ПК, персональный

клавиатура, мышка,

 

машина,

вычисления

компьютер, Пентиум

процессор

 

вычисл.

 

 

 

маш.

 

 

 

 

 

--графический способ (в виде дерева)

--аналитический способ

Отражение синтагматических отношений

Синтагматические отношения – отношения, в которые вступают термины в конкретном контексте.

ПОД (список ключевых слов)

Т.к. ПОД – список дескрипторов, не связанных синтагматическими отношениями, то дескрипторы, входящие в ПОД, часто образуют ложные сочетания

Пусть в документе N говорится о производстве серной кислоты и очистке катализаторов. ПОД: производство, серная кислота, катализатор.

Итак, эти дескрипторы образуют ложные словосочетания: производство катализатора и очистка серной кислоты. В результате чего происходит поисковый шум и ИПС выдает нерелевантный документ. Следовательно, контекстуальные и синтагматические отношения следует отражать, вводить грамматику.

В качестве грамматических средств чаще всего выступают указатели роли и указатели связи.

Указатель роли – специфический символ, который приписывается к дескриптору и уменьшает объем обозначаемого им понятия. ПОД, в который вводятся указатели роли имеет следующий вид: указатели роли di1(A), di2(B),…,dik(N) где din – дескрипторы, A,B,..,N – указатели роли

Указатели связи – специфические символы, которые приписываются к дескрипторам ПОД и служат для смысловой группировки дескрипторов в ПОДах.

Указатели связи (di1, di2,…,dik) M, (di18, di10,…,dip) K Пример работы указателей роли. Темой документа является получение азотной кислоты из аммиака с помощью платины в качестве катализатора.

ПОД (азотная кислота, получение, аммиак, платина, катализатор). Чтобы предотвратить выдачу данного документа на ИЗ «получение платины», «получение аммиака из азотной кислоты», необходимо ввести грамматику, а именно, указатели роли (т.е. каждому дескриптору присвоить код)

Дескрипторы. Дескрипторные ИПЯ. Тезаурусы

Дескрипторы – это предназначенные для координатного индексирования документов и информационных запросов нормативные ключевые слова, которые по определенным правилам отобраны из основного словарного состава того или иного ЕЯ и у которых искусственно (при помощи соответственных отсылок или помет) устранены полисемия, омонимия, синонимия.

Дескрипторные ИПЯ – это специальные ИПЯ, словарный состав которых представлен дескрипторами, а грамматика состоит из правил построения ПОДов и ПОЗов путем координации соответствующих дескрипторов.

Для обозначения возможно большей полноты выдачи при информационном поиске, основанном на ДИПЯ необходимо проводить избыточное индексирование документов и информационных запросов.

Под избыточным индексированием понимают дополнение ПОДов и ПОЗов дескрипторами, которые по смыслу связаны с основными дескрипторами текста документа. При этом более предпочтительным является проводить избыточное индексирование информационных запросов.

Чтобы производить избыточное индексирование, нужно преобразовать алфавитный словарь дескрипторов в нормативный словарь-справочник, в котором были бы выражены важнейшие парадигматические связи между дескрипторами.

Такие словари-справочники предназначены для следующих целей:

  1. они служат руководством для перевода текста с ЕЯ на ДИПЯ(путем замены ключевых слов соответствующими дескрипторами);

  2. они обеспечивают возможность избыточного индексирования документов и информационных запросов;

  3. служат для нормализации языка;

  4. являются пособием, которое помогает пользователю находить правильный дескриптор для выражения его потребностей.

Особое внимание следует обратить на последний пункт и ещё раз подчеркнуть, что одной из основных трудностей, с которыми сталкиваются при информационном поиске заключается в неадекватности словесного выражения пользователем его информационной потребности.

Острота проблемы неадекватного словесного выражения информационной потребности может быть значительно уменьшена, если создать особый словарь, который бы позволял по смыслу находить слова(дескрипторы), необходимые для выражения этого смысла.

Значение в языке – отношение между именем и смыслом. Поэтому поиск значения можно начинать либо с имени, либо со смысла.

Для поиска значения по имени используется алфавитные словари, а для поиска значения по смыслу используют так называемые концептуальные словари.

В теории информационного поиска эти словари получили название тезаурусы. Thesaurus (от греческого сокровище, кладовая).

Тезаурус не является лишь идеологическим словарём, т.к. он должен выполнять функцию двуязычного словаря ЕЯ – ДИПЯ.

Обобщенная схема ТЕЗАУРУСА (обязательные части):

- руководство по переводу ключевых слов и словосочетаний с ЕЯ на ДИПЯ.

В словарной части тезауруса дескрипторы и синонимичные ключевые слова приводятся в виде алфавитного списка, причём дескрипторы в этом списке соответствующим образом отмечены. В этом списке дескрипторы и их синонимы связаны перекрестными ссылками. Полисемия и омонимия дескрипторов и ключевых слов в ИПЯ устранены лексикографически при помощи системы помет и ссылок при построении тезауруса. В данном разделе тезауруса каждый дескриптор образует словарную статью, которая обычно строится по следующей схеме.

di (Mi1, Mi2, Mi3, Mi4), где di – заглавный дескриптор.

Mi1 – упорядоченное по алфавиту множество ключевых слов, которое в пределах данной ИПС считаются синонимами дескриптора

Mi2 – упорядоченное по алфавиту множество дескрипторов, которые связаны с заглавным дескриптором отношениями «род-вид»

Mi3 - упорядоченное по алфавиту множество дескрипторов, которые связаны с заглавным дескриптором отношениями «вид-род»

Mi4 - упорядоченное по алфавиту множество дескрипторов, каждый из которых связан с di одним из следующих парадигматических отношений:

Любое из перечисленных множеств может быть пустым или одноэлементным. Множества Mi1, Mi2, Mi3, Mi4 в словарной части обозначаются соответствующими пометами. Множество Mi1 с di образуют класс условной эквивалентности.

«Семантическая карта» словарного состава ДИПЯ может быть выполнена в любом из двух вариантах:

  1. в виде сочетания множества тематических классов с множеством тематических групп дескрипторов. В свою очередь тематические классы состоят из упорядоченных по алфавиту дескрипторов.

  2. в виде графических схем, в которых важнейшие парадигматические отношения между дескрипторами выражены при помощи соответствующих стрелок или точек.

Правила перевода ключевых слов и словосочетаний с ЕЯ на ДИПЯ регламентируют процедуру подстановки дескрипторов вместо ключевых слов и словосочетаний на заключительном этапе индексирования.

Рекомендации по построению ИПТ(информационно-поисковый тезаурус). Необходимо последовательно выполнить следующие операции:

  1. провести отбор(накопление) ключевых слов, необходимых для построения словаря дескрипторов;

  2. построить словарь дескрипторов, для чего:

  1. для каждого дескриптора построить его словарную статью, в которой сгруппировать все дескрипторы данного ИПЯ, связанные с заглавным дескриптором соответствующими парадигматическими отношениями;

  2. построить классификационные таблицы дескрипторов или графические схемы, в которых наглядно выразить связи между дескрипторами;

  3. сформулировать правило перевода ключевых слов и словосочетаний с ЕЯ на ДИПЯ.

Тезаурус научно-технических терминов (известен под редакцией Шемакина) – это политехнический тезаурус, который является нормативным собранием терминологии для унифицированных документов и запросов по различным областям знаний (33 области).

Он содержит около 19 тыс. терминов (слов и словосочетаний).

Организационная структура тезауруса включает:

  1. лексико-семантическое собрание терминов;

  2. систематический указатель дескрипторов;

  3. указатель иерархических отношений дескрипторов;

  4. ПУ – пермутационный указатель.

Основным разделом тезауруса является лексико-семантическое собрание терминов, в котором дескрипторы и условные синонимы (с их словарными статьями) располагаются в алфавитном порядке.

Всего в тезаурусе 14 993 дескриптора и 4108 синонимов, объединенные в классы условной эквивалентности. Терминологический состав тезауруса распадается на отдельные слова и словосочетания.

Статистический анализ лексики тезауруса в зависимости от структурного состава показывает, что основную часть терминологии составляют словосочетания 74%, среди которых:

Между терминами тезауруса существует три типа связи:

  1. предпочтительные (этот вид связи применяется для отражения отношений дескрипторов и их условных синонимов);

  2. иерархические (применяется для фиксирования уровня специфичности внутри категории дескрипторов, принадлежащей одной родо-видовой группе);

  3. ассоциативные - в данном тезаурусе круг ассоциативных связей отражен следующими отношениями:

  • связь двух предметов, являющихся целым и его частью;

  • причинно-следственная связь;

  • связь предмета и процесса;

  • связь на основе функциональной зависимости;