logo search
ИТУ-МГУДТ

3.5. Словари.

Лексическую основу использования информационных технологий составляют словари информационных систем. Словари включают в себя набор понятий, используемых в процессе информационного обеспечения субъектов управления для формализованного представления информации, хранимой в системе в закодированном виде, а также запросов, и задают однозначное соответствие этого набора определенной системе кодов.

Наиболее распространенными принципами построения словарей являются линейный, иерархический и составной. Линейный словарь представляет собой перечень понятий, составляющих один классификационный ряд (например, словарь стран мира). Иерархический словарь составляет совокупность понятий, между которыми установлены отношения подчинения (словарь Административно-территориальных единиц). Составной словарь включает в себя две или более группировки понятий, представляющие собой разные классификационные ряды (словарь шифров деталей).

В качестве понятий словаря должны выступать лексические единицы естественного языка, являющиеся наименованиями элементов деловой обстановки, либо отражающие данные о функционировании системы, ее эксплуатационные показатели, учитывающие специфику комплекса средств математического, программного и технического обеспечения, на базе которых реализуется информационная система.

Формулировки (формы текстового представления) понятий выверяются по официально изданным справочникам и словарям, актам, изданным высшими органами государственными власти и управления. Специальные термины, применяемые для обозначения понятий, касающихся специфики деятельности организации, должны соответствовать терминологии, принятой в конкретной сфере профессиональной деятельности.

По виду носителя информации различаются словари на печатных носителях и словари на машинных носителях. Словарь на печатном носителе представляет собой изготовленный печатным способом документ, который содержит коды и текст в виде, пригодном для непосредственного восприятия человеком, и используется для обработки информации вручную. Словарь на машинном носителе изготавливается средствами вычислительной техники (машиночитаемый документ) и используется для автоматизированной обработки данных.

Термины в словарях располагаются по близо­сти их буквенного состава (алфавитные словари) или по смысловой близости (тезаурусы). Алфавитные словари служат для раскрытия значения данного слова, т.е. по слову ищется его смысл. Тезаурусы используются для поиска слов для выражения данного понятия, т.е. по заданному смыслу ищутся слова, которые этот смысл выражают. Тезаурусы используют в своей работе специалисты, в той или иной степени связанные с подготовкой и обработкой текстовой информа­ции: переводчики, редакторы, научные работники, референты и др. Информационно-поисковые тезаурусы используются при индек­сировании документов и запросов.

Различают безтезаурусное индексирование и индексирование с тезаурусным контролем лексики. При безтезаурусном индексировании ПОД представляется в виде списка ключевых слов, выбранных непосредственно из текста до­кумента. Такое индексирование требует меньше времени и менее трудоемко. Однако такой режим индексирования обладает недостатками: возможна синонимия; нельзя отразить парадигмати­ческие отношения.

При индексировании с тезаурусным контролем лексики для вы­ражения содержания документа и запроса используют только деск­рипторы, входящие в информационно-поисковый тезаурус, что по­зволяет исключить синонимию и учесть парадигматические связи, и, в конечном счете, повышает эффективность поиска.

Тезаурус состоит обычно из введения, алфавитного указате­ля (словарная часть) и систематического указателя. Введение содержит общие характеристики тезауруса - область применения, правила использования, число дескрипторов, ключевых слов и другую справочную информацию. Алфавитный указатель содержит алфавитный перечень дескрипторных статей. Дескрипторная статья может иметь следующую структуру:

- заглавный дескриптор;

- ключевые слова, составляющие класс эквивалентности;

- дескрипторы, подчиняющие заглавный;

- дескрипторы, подчиненные заглавному;

- дескрипторы, ассоциированные с заглавным. Ассоциации могут быть следующих видов: причина - следствие; сырье - продукт; про­цесс - объект; процесс - субъект; свойство - носитель свойства, фун­кциональное сходство и др.

Систематический указатель служит для раскрытия, учета и конт­роля парадигматических отношений между дескрипторами. Для каждого дескриптора ИПЯ должны быть предусмотрены соответствующие родо­вые и видовые дескрипторы. Причем предварительно необходимо сформулировать критерии, определяющие число уровней иерархии. Определение степени отображения парадигматических отношении зависит от требований, предъявляемых к системе. Чем шире эти отно­шения отображены, тем выше полнота выдачи. Одновременно про­исходит увеличение словарного запаса, усложняется система ссылок и может произойти уменьшение точности поиска.

Тезаурусы разрабатываются для отдельных отраслей знаний. Так, существует «Тезаурус по документации», «Дескрипторный словарь по информатике» и т. п. Тезаурус может быть разработан и для обслужи­вания конкретной информационно-поисковой системы.

Критерием включения слов в класс эквивалентности является семантическая значимость этого слова при поиске документов, т. е. если данное слово при поиске документа может быть заменено другим сло­вом так, что на любой запрос выдача документов будет такой же, как и до замены, то такие два слова объявляются условными эквивалентами и включаются в один класс эквивалентности.

В процессе построения тезауруса и выделения множества деск­рипторов происходит устранение синонимии, омонимии, полисемии ключевых слов, а также выявление парадигматических связей между дескрипторами. Для устранения многозначности (омонимии и полисемии) клю­чевое слово, которое можно неоднозначно трактовать, снабжается пометой, в которой указывается, в каком значении данное ключевое слово используется в ИПЯ.

Разработка тезауруса без использования компьютерных техноло­гий - длительный и трудоемкий процесс, требующий высокой квалификации исполнителей. Автоматические тезаурусы являются составным элементом систем автоматического индексирования доку­ментов и запросов.