1.Устранение синонимии
Как правило, ключевые слова – это термины; в основном они однозначны, но иногда встречаются и синонимы.
Бесконтрольное употребление синонимов усложняет процедуру проведения информационного поиска, т.е. возникает информационный шум, когда информация либо не отвечает вопросам, либо теряется. Следовательно, синонимию необходимо устранять.
1)для устранения синонимии, ключевые слова объединяют в семантические ряды (т.е. группируются в классы условной эквивалентности).
2)в каждом классе условной эквивалентности выбирается доминанта, которая называет этот класс и становится дескриптором.
2.Многозначность – это способность слова иметь несколько различных значений. В естественных языках причиной многозначности слов является равноимённость, т.е. употребление одного и того же имени или знака для обозначения не одного, а нескольких различных предметов.
Равноимённость проявляется в двух языковых явлениях:
а) полисемия;
б) омонимия.
Полисемия – это перенос названия одного предмета на другой предмет, имеющий с ним какие-либо общие признаки или свойства. Омонимия – совпадение (в звучании или написании) разных слов, которые не имеют ничего общего по признакам.
Пример. Полисемия и её устранение:
звезда (небесное тело) – 215
звезда (геометрическая фигура) - 800
Итак, синонимия, полисемия и омонимия устраняются лексикографически, т.е. с помощью систем отсылок или помет при построении тезауруса.
Пример. Устранение синонимии. Возьмём три синонима:
абстрактный (доминанта)
отвлеченный
умозрительный
Абстрактный вкл умозрительный, отвлеченный
Б…
В…
…
Отвлеченный см. АБСТРАКТНЫЙ
…
Умозрительный см. АБСТРАКТНЫЙ
…
3.Парадигматические отношения – отношения между словам, означающими, которые основаны на существовании тех или иных связей между означаемыми («род-вид»).
Отражение отношений «род-вид» в тезаурусе:
--лексикографический способ (при помощи систем отсылок и помет)
Пример. Структура словарной статьи ЭВМ:
ЭВМ – заглавный дескриптор
С | электронно-вычислительная машина | множество синонимов |
| |||||
| машина |
|
|
| с определенными пометами | |||
Р | устройство для вычисления | множество родовых дескрипторов | ||||||
В | ПК, персональный компьютер | множество видовых дескрипторов | ||||||
| Супер ЭВМ |
|
|
|
|
|
| |
АД | клавиатура |
|
| ассоциативные дескрипторы | ||||
|
|
|
|
| (чаще всего "часть-целое") |
Э ВМ – заглавный дескриптор, все остальные слова – ключевые. Это значит, что при индексировании (ЕЯ ИПЯ) мы обратимся к тезаурусу и заменим электронно-выч. машины и остальные дескрипторы на ЭВМ.
--табличный способ (устранение парадигматических отношений с помощью таблицы)
Дескриптор | Синоним | Родовой дескриптор |
| Видовой дескриптор |
| Ассоциативный дескриптор |
|
|
|
|
|
|
|
ЭВМ | эл. вычисл | устройство для |
| ПК, персональный |
| клавиатура, мышка, |
| машина, | вычисления |
| компьютер, Пентиум |
| процессор |
| вычисл. |
|
|
|
|
|
| маш. |
|
|
|
|
|
--графический способ (в виде дерева)
--аналитический способ
Отражение синтагматических отношений
Синтагматические отношения – отношения, в которые вступают термины в конкретном контексте.
ПОД (список ключевых слов)
Т.к. ПОД – список дескрипторов, не связанных синтагматическими отношениями, то дескрипторы, входящие в ПОД, часто образуют ложные сочетания
Пусть в документе N говорится о производстве серной кислоты и очистке катализаторов. ПОД: производство, серная кислота, катализатор.
Итак, эти дескрипторы образуют ложные словосочетания: производство катализатора и очистка серной кислоты. В результате чего происходит поисковый шум и ИПС выдает нерелевантный документ. Следовательно, контекстуальные и синтагматические отношения следует отражать, вводить грамматику.
В качестве грамматических средств чаще всего выступают указатели роли и указатели связи.
Указатель роли – специфический символ, который приписывается к дескриптору и уменьшает объем обозначаемого им понятия. ПОД, в который вводятся указатели роли имеет следующий вид: указатели роли di1(A), di2(B),…,dik(N) где din – дескрипторы, A,B,..,N – указатели роли
Указатели связи – специфические символы, которые приписываются к дескрипторам ПОД и служат для смысловой группировки дескрипторов в ПОДах.
Указатели связи (di1, di2,…,dik) M, (di18, di10,…,dip) K Пример работы указателей роли. Темой документа является получение азотной кислоты из аммиака с помощью платины в качестве катализатора.
ПОД (азотная кислота, получение, аммиак, платина, катализатор). Чтобы предотвратить выдачу данного документа на ИЗ «получение платины», «получение аммиака из азотной кислоты», необходимо ввести грамматику, а именно, указатели роли (т.е. каждому дескриптору присвоить код)
Дескрипторы. Дескрипторные ИПЯ. Тезаурусы
Дескрипторы – это предназначенные для координатного индексирования документов и информационных запросов нормативные ключевые слова, которые по определенным правилам отобраны из основного словарного состава того или иного ЕЯ и у которых искусственно (при помощи соответственных отсылок или помет) устранены полисемия, омонимия, синонимия.
Дескрипторные ИПЯ – это специальные ИПЯ, словарный состав которых представлен дескрипторами, а грамматика состоит из правил построения ПОДов и ПОЗов путем координации соответствующих дескрипторов.
Для обозначения возможно большей полноты выдачи при информационном поиске, основанном на ДИПЯ необходимо проводить избыточное индексирование документов и информационных запросов.
Под избыточным индексированием понимают дополнение ПОДов и ПОЗов дескрипторами, которые по смыслу связаны с основными дескрипторами текста документа. При этом более предпочтительным является проводить избыточное индексирование информационных запросов.
Чтобы производить избыточное индексирование, нужно преобразовать алфавитный словарь дескрипторов в нормативный словарь-справочник, в котором были бы выражены важнейшие парадигматические связи между дескрипторами.
Такие словари-справочники предназначены для следующих целей:
они служат руководством для перевода текста с ЕЯ на ДИПЯ(путем замены ключевых слов соответствующими дескрипторами);
они обеспечивают возможность избыточного индексирования документов и информационных запросов;
служат для нормализации языка;
являются пособием, которое помогает пользователю находить правильный дескриптор для выражения его потребностей.
Особое внимание следует обратить на последний пункт и ещё раз подчеркнуть, что одной из основных трудностей, с которыми сталкиваются при информационном поиске заключается в неадекватности словесного выражения пользователем его информационной потребности.
Острота проблемы неадекватного словесного выражения информационной потребности может быть значительно уменьшена, если создать особый словарь, который бы позволял по смыслу находить слова(дескрипторы), необходимые для выражения этого смысла.
Значение в языке – отношение между именем и смыслом. Поэтому поиск значения можно начинать либо с имени, либо со смысла.
Для поиска значения по имени используется алфавитные словари, а для поиска значения по смыслу используют так называемые концептуальные словари.
В теории информационного поиска эти словари получили название тезаурусы. Thesaurus (от греческого сокровище, кладовая).
Тезаурус не является лишь идеологическим словарём, т.к. он должен выполнять функцию двуязычного словаря ЕЯ – ДИПЯ.
Обобщенная схема ТЕЗАУРУСА (обязательные части):
словарная часть (представляет собой общий алфавитный список дескрипторов вместе с их словарными статьями и ключевых слов, которые в данной ИПС считаются синонимами дескрипторов):
«семантическая карта» словарного состава ИПЯ (представляет собой систему смысловых классов, в которые сгруппированы все дескрипторы этого ИПЯ. В этом разделе тезауруса должны быть как можно более наглядно выражены важнейшие парадигматические отношения между дескрипторами или, по крайней мере, отношения «род-вид»);
- руководство по переводу ключевых слов и словосочетаний с ЕЯ на ДИПЯ.
В словарной части тезауруса дескрипторы и синонимичные ключевые слова приводятся в виде алфавитного списка, причём дескрипторы в этом списке соответствующим образом отмечены. В этом списке дескрипторы и их синонимы связаны перекрестными ссылками. Полисемия и омонимия дескрипторов и ключевых слов в ИПЯ устранены лексикографически при помощи системы помет и ссылок при построении тезауруса. В данном разделе тезауруса каждый дескриптор образует словарную статью, которая обычно строится по следующей схеме.
di (Mi1, Mi2, Mi3, Mi4), где di – заглавный дескриптор.
Mi1 – упорядоченное по алфавиту множество ключевых слов, которое в пределах данной ИПС считаются синонимами дескриптора
Mi2 – упорядоченное по алфавиту множество дескрипторов, которые связаны с заглавным дескриптором отношениями «род-вид»
Mi3 - упорядоченное по алфавиту множество дескрипторов, которые связаны с заглавным дескриптором отношениями «вид-род»
Mi4 - упорядоченное по алфавиту множество дескрипторов, каждый из которых связан с di одним из следующих парадигматических отношений:
целое-часть;
часть-целое;
причина-следствие.
Любое из перечисленных множеств может быть пустым или одноэлементным. Множества Mi1, Mi2, Mi3, Mi4 в словарной части обозначаются соответствующими пометами. Множество Mi1 с di образуют класс условной эквивалентности.
«Семантическая карта» словарного состава ДИПЯ может быть выполнена в любом из двух вариантах:
в виде сочетания множества тематических классов с множеством тематических групп дескрипторов. В свою очередь тематические классы состоят из упорядоченных по алфавиту дескрипторов.
в виде графических схем, в которых важнейшие парадигматические отношения между дескрипторами выражены при помощи соответствующих стрелок или точек.
Правила перевода ключевых слов и словосочетаний с ЕЯ на ДИПЯ регламентируют процедуру подстановки дескрипторов вместо ключевых слов и словосочетаний на заключительном этапе индексирования.
Рекомендации по построению ИПТ(информационно-поисковый тезаурус). Необходимо последовательно выполнить следующие операции:
провести отбор(накопление) ключевых слов, необходимых для построения словаря дескрипторов;
построить словарь дескрипторов, для чего:
устранить полисемию и омонимию ключевых слов;
сгруппировать ключевые слова в классы условной эквивалентности;
выбрать из числа членов каждого класса условной эквивалентности такое ключевое слово, которое далее будет использоваться в качестве имени этого класса, т.е. станет дескриптором (устранение синонимии).
для каждого дескриптора построить его словарную статью, в которой сгруппировать все дескрипторы данного ИПЯ, связанные с заглавным дескриптором соответствующими парадигматическими отношениями;
построить классификационные таблицы дескрипторов или графические схемы, в которых наглядно выразить связи между дескрипторами;
сформулировать правило перевода ключевых слов и словосочетаний с ЕЯ на ДИПЯ.
Тезаурус научно-технических терминов (известен под редакцией Шемакина) – это политехнический тезаурус, который является нормативным собранием терминологии для унифицированных документов и запросов по различным областям знаний (33 области).
Он содержит около 19 тыс. терминов (слов и словосочетаний).
Организационная структура тезауруса включает:
лексико-семантическое собрание терминов;
систематический указатель дескрипторов;
указатель иерархических отношений дескрипторов;
ПУ – пермутационный указатель.
Основным разделом тезауруса является лексико-семантическое собрание терминов, в котором дескрипторы и условные синонимы (с их словарными статьями) располагаются в алфавитном порядке.
Всего в тезаурусе 14 993 дескриптора и 4108 синонимов, объединенные в классы условной эквивалентности. Терминологический состав тезауруса распадается на отдельные слова и словосочетания.
Статистический анализ лексики тезауруса в зависимости от структурного состава показывает, что основную часть терминологии составляют словосочетания 74%, среди которых:
двухсловные 39,5%
трёхсловные 24%
четырехсловные 4%
более 2,5%
Между терминами тезауруса существует три типа связи:
предпочтительные (этот вид связи применяется для отражения отношений дескрипторов и их условных синонимов);
иерархические (применяется для фиксирования уровня специфичности внутри категории дескрипторов, принадлежащей одной родо-видовой группе);
ассоциативные - в данном тезаурусе круг ассоциативных связей отражен следующими отношениями:
связь двух предметов, являющихся целым и его частью;
причинно-следственная связь;
связь предмета и процесса;
связь на основе функциональной зависимости;
- 1.Устранение синонимии
- 3. Указатель иерархических отношений
- Практические рекомендации для составления пс Анализ содержания документов и выявления ключевых слов
- Как осуществить перевод с ея на ипя?
- 3.Ипс «синтол» [документальная, синтагматический язык с грамматикой]
- I. Синтагматическая организация «синтола».
- II.Парадигматическая организация (словарь)
- III. Поиск информации
- Ипс аидос (ппп) [документально-фактографическая, с грамматикой]
- 1) Тезаурус
- Критерий выдачи(кв)
- Синтаксические указатели (роли и связи).
- Система «smart»
- Анализ документов
- Стратегия поиска
- Анализ языка
- Структура словаря синонимов
- Тезаурус основ слов и список суффиксов
- Иерархия понятий
- Принципы построения тезауруса в системе smart
- Особенности фактографических информационно-поисковых систем(фипс)
- Способы представления информации в фипс
- Автоматизированные фипс (афипс)
- Автоматизация индексирования документов в афипс
- Автоматическое индексирование запросов
- Автоматизированные обучающие системы(аос)
- Язык обучающих курсов (яок)
- Автоматизированный учебный курс (аук) по иносранным языкам
- Структура аук
- Автоматизированный учебный словарь (аус)
- Интернет (the internet)
- Сервисные службы интернета.
- Пакет прикладных программ microsoft office (’95 – под windows ’95)