ИТУ-МГУДТ

3.5. Словари.

Лексическую основу использования информационных технологий составляют словари информационных систем. Словари включают в себя набор понятий, используемых в процессе информационного обеспечения субъектов управления для формализованного представления информации, хранимой в системе в закодированном виде, а также запросов, и задают однозначное соответствие этого набора определенной системе кодов.

Наиболее распространенными принципами построения словарей являются линейный, иерархический и составной. Линейный словарь представляет собой перечень понятий, составляющих один классификационный ряд (например, словарь стран мира). Иерархический словарь составляет совокупность понятий, между которыми установлены отношения подчинения (словарь Административно-территориальных единиц). Составной словарь включает в себя две или более группировки понятий, представляющие собой разные классификационные ряды (словарь шифров деталей).

В качестве понятий словаря должны выступать лексические единицы естественного языка, являющиеся наименованиями элементов деловой обстановки, либо отражающие данные о функционировании системы, ее эксплуатационные показатели, учитывающие специфику комплекса средств математического, программного и технического обеспечения, на базе которых реализуется информационная система.

Формулировки (формы текстового представления) понятий выверяются по официально изданным справочникам и словарям, актам, изданным высшими органами государственными власти и управления. Специальные термины, применяемые для обозначения понятий, касающихся специфики деятельности организации, должны соответствовать терминологии, принятой в конкретной сфере профессиональной деятельности.

По виду носителя информации различаются словари на печатных носителях и словари на машинных носителях. Словарь на печатном носителе представляет собой изготовленный печатным способом документ, который содержит коды и текст в виде, пригодном для непосредственного восприятия человеком, и используется для обработки информации вручную. Словарь на машинном носителе изготавливается средствами вычислительной техники (машиночитаемый документ) и используется для автоматизированной обработки данных.

Термины в словарях располагаются по близости их буквенного состава (алфавитные словари) или по смысловой близости (тезаурусы). Алфавитные словари служат для раскрытия значения данного слова, т.е. по слову ищется его смысл. Тезаурусы используются для поиска слов для выражения данного понятия, т.е. по заданному смыслу ищутся слова, которые этот смысл выражают. Тезаурусы используют в своей работе специалисты, в той или иной степени связанные с подготовкой и обработкой текстовой информации: переводчики, редакторы, научные работники, референты и др. Информационно-поисковые тезаурусы используются при индексировании документов и запросов.

Различают безтезаурусное индексирование и индексирование с тезаурусным контролем лексики. При безтезаурусном индексировании ПОД представляется в виде списка ключевых слов, выбранных непосредственно из текста документа. Такое индексирование требует меньше времени и менее трудоемко. Однако такой режим индексирования обладает недостатками: возможна синонимия; нельзя отразить парадигматические отношения.

При индексировании с тезаурусным контролем лексики для выражения содержания документа и запроса используют только дескрипторы, входящие в информационно-поисковый тезаурус, что позволяет исключить синонимию и учесть парадигматические связи, и, в конечном счете, повышает эффективность поиска.

Тезаурус состоит обычно из введения, алфавитного указателя (словарная часть) и систематического указателя. Введение содержит общие характеристики тезауруса - область применения, правила использования, число дескрипторов, ключевых слов и другую справочную информацию. Алфавитный указатель содержит алфавитный перечень дескрипторных статей. Дескрипторная статья может иметь следующую структуру:

- заглавный дескриптор;

- ключевые слова, составляющие класс эквивалентности;

- дескрипторы, подчиняющие заглавный;

- дескрипторы, подчиненные заглавному;

- дескрипторы, ассоциированные с заглавным. Ассоциации могут быть следующих видов: причина - следствие; сырье - продукт; процесс - объект; процесс - субъект; свойство - носитель свойства, функциональное сходство и др.

Систематический указатель служит для раскрытия, учета и контроля парадигматических отношений между дескрипторами. Для каждого дескриптора ИПЯ должны быть предусмотрены соответствующие родовые и видовые дескрипторы. Причем предварительно необходимо сформулировать критерии, определяющие число уровней иерархии. Определение степени отображения парадигматических отношении зависит от требований, предъявляемых к системе. Чем шире эти отношения отображены, тем выше полнота выдачи. Одновременно происходит увеличение словарного запаса, усложняется система ссылок и может произойти уменьшение точности поиска.

Тезаурусы разрабатываются для отдельных отраслей знаний. Так, существует «Тезаурус по документации», «Дескрипторный словарь по информатике» и т. п. Тезаурус может быть разработан и для обслуживания конкретной информационно-поисковой системы.

Критерием включения слов в класс эквивалентности является семантическая значимость этого слова при поиске документов, т. е. если данное слово при поиске документа может быть заменено другим словом так, что на любой запрос выдача документов будет такой же, как и до замены, то такие два слова объявляются условными эквивалентами и включаются в один класс эквивалентности.

В процессе построения тезауруса и выделения множества дескрипторов происходит устранение синонимии, омонимии, полисемии ключевых слов, а также выявление парадигматических связей между дескрипторами. Для устранения многозначности (омонимии и полисемии) ключевое слово, которое можно неоднозначно трактовать, снабжается пометой, в которой указывается, в каком значении данное ключевое слово используется в ИПЯ.

Разработка тезауруса без использования компьютерных технологий - длительный и трудоемкий процесс, требующий высокой квалификации исполнителей. Автоматические тезаурусы являются составным элементом систем автоматического индексирования документов и запросов.

Содержание