3.5. Словари.
Лексическую основу использования информационных технологий составляют словари информационных систем. Словари включают в себя набор понятий, используемых в процессе информационного обеспечения субъектов управления для формализованного представления информации, хранимой в системе в закодированном виде, а также запросов, и задают однозначное соответствие этого набора определенной системе кодов.
Наиболее распространенными принципами построения словарей являются линейный, иерархический и составной. Линейный словарь представляет собой перечень понятий, составляющих один классификационный ряд (например, словарь стран мира). Иерархический словарь составляет совокупность понятий, между которыми установлены отношения подчинения (словарь Административно-территориальных единиц). Составной словарь включает в себя две или более группировки понятий, представляющие собой разные классификационные ряды (словарь шифров деталей).
В качестве понятий словаря должны выступать лексические единицы естественного языка, являющиеся наименованиями элементов деловой обстановки, либо отражающие данные о функционировании системы, ее эксплуатационные показатели, учитывающие специфику комплекса средств математического, программного и технического обеспечения, на базе которых реализуется информационная система.
Формулировки (формы текстового представления) понятий выверяются по официально изданным справочникам и словарям, актам, изданным высшими органами государственными власти и управления. Специальные термины, применяемые для обозначения понятий, касающихся специфики деятельности организации, должны соответствовать терминологии, принятой в конкретной сфере профессиональной деятельности.
По виду носителя информации различаются словари на печатных носителях и словари на машинных носителях. Словарь на печатном носителе представляет собой изготовленный печатным способом документ, который содержит коды и текст в виде, пригодном для непосредственного восприятия человеком, и используется для обработки информации вручную. Словарь на машинном носителе изготавливается средствами вычислительной техники (машиночитаемый документ) и используется для автоматизированной обработки данных.
Термины в словарях располагаются по близости их буквенного состава (алфавитные словари) или по смысловой близости (тезаурусы). Алфавитные словари служат для раскрытия значения данного слова, т.е. по слову ищется его смысл. Тезаурусы используются для поиска слов для выражения данного понятия, т.е. по заданному смыслу ищутся слова, которые этот смысл выражают. Тезаурусы используют в своей работе специалисты, в той или иной степени связанные с подготовкой и обработкой текстовой информации: переводчики, редакторы, научные работники, референты и др. Информационно-поисковые тезаурусы используются при индексировании документов и запросов.
Различают безтезаурусное индексирование и индексирование с тезаурусным контролем лексики. При безтезаурусном индексировании ПОД представляется в виде списка ключевых слов, выбранных непосредственно из текста документа. Такое индексирование требует меньше времени и менее трудоемко. Однако такой режим индексирования обладает недостатками: возможна синонимия; нельзя отразить парадигматические отношения.
При индексировании с тезаурусным контролем лексики для выражения содержания документа и запроса используют только дескрипторы, входящие в информационно-поисковый тезаурус, что позволяет исключить синонимию и учесть парадигматические связи, и, в конечном счете, повышает эффективность поиска.
Тезаурус состоит обычно из введения, алфавитного указателя (словарная часть) и систематического указателя. Введение содержит общие характеристики тезауруса - область применения, правила использования, число дескрипторов, ключевых слов и другую справочную информацию. Алфавитный указатель содержит алфавитный перечень дескрипторных статей. Дескрипторная статья может иметь следующую структуру:
- заглавный дескриптор;
- ключевые слова, составляющие класс эквивалентности;
- дескрипторы, подчиняющие заглавный;
- дескрипторы, подчиненные заглавному;
- дескрипторы, ассоциированные с заглавным. Ассоциации могут быть следующих видов: причина - следствие; сырье - продукт; процесс - объект; процесс - субъект; свойство - носитель свойства, функциональное сходство и др.
Систематический указатель служит для раскрытия, учета и контроля парадигматических отношений между дескрипторами. Для каждого дескриптора ИПЯ должны быть предусмотрены соответствующие родовые и видовые дескрипторы. Причем предварительно необходимо сформулировать критерии, определяющие число уровней иерархии. Определение степени отображения парадигматических отношении зависит от требований, предъявляемых к системе. Чем шире эти отношения отображены, тем выше полнота выдачи. Одновременно происходит увеличение словарного запаса, усложняется система ссылок и может произойти уменьшение точности поиска.
Тезаурусы разрабатываются для отдельных отраслей знаний. Так, существует «Тезаурус по документации», «Дескрипторный словарь по информатике» и т. п. Тезаурус может быть разработан и для обслуживания конкретной информационно-поисковой системы.
Критерием включения слов в класс эквивалентности является семантическая значимость этого слова при поиске документов, т. е. если данное слово при поиске документа может быть заменено другим словом так, что на любой запрос выдача документов будет такой же, как и до замены, то такие два слова объявляются условными эквивалентами и включаются в один класс эквивалентности.
В процессе построения тезауруса и выделения множества дескрипторов происходит устранение синонимии, омонимии, полисемии ключевых слов, а также выявление парадигматических связей между дескрипторами. Для устранения многозначности (омонимии и полисемии) ключевое слово, которое можно неоднозначно трактовать, снабжается пометой, в которой указывается, в каком значении данное ключевое слово используется в ИПЯ.
Разработка тезауруса без использования компьютерных технологий - длительный и трудоемкий процесс, требующий высокой квалификации исполнителей. Автоматические тезаурусы являются составным элементом систем автоматического индексирования документов и запросов.
- Московский государственный университет
- Оглавление
- Раздел 1. Методология информационных технологий управления
- Глава 1. Информация и управление
- 1.1. Понятие информации.
- Свойства информации.
- 1.3. Виды информации
- Источники информации
- Виды информации на различных уровнях управления
- Глава 2. Структура информационных технологий управления
- 2.1. Сущность информационной технологии управления
- 2.2. Виды информационных технологий управления
- 2.3. Объекты информационных технологий управления
- 2.4. Элементы информационных технологий управления
- 2.5. Методология проектирования автоматизированных информационных технологий управления
- 2. Технические науки.
- 2.2. Информатика
- 5.1. Геология, геохимия, геофизика и горные науки.
- 6.2. Философия, социология, психология и правовые науки.
- Раздел 2. Организация и средства информационных технологий обеспечения управленческой деятельности
- Глава 3. Информационная база управления
- 3.1. Предметная область использования информационных технологий
- 3.2. Понятие и структура информационной базы управления
- 3.3. Информационные ресурсы и фонды
- 3.4. Языковые средства
- 3.5. Словари.
- 3.6. Ведение словарей
- Глава 4. Информационные процессы
- 4.1. Понятие и виды информационных процессов
- 4.2. Сбор (получение) информации.
- 4.3. Оценка информации в управлении
- 4.4. Передача информации.
- 4.5. Накопление информации
- 4.6. Хранение информации
- 4.7. Обработка информации
- 4.8. Выдача (представление) информации
- Глава 5. Информационные потоки
- 5.1. Информационные потоки в системе управления
- 5.2. Виды информационных потоков
- 5.3. Методы исследования информационных потоков
- 5.6. Оптимизация информационных потоков
- Глава 6. Аппаратные средства информационных технологий
- 6.1. Организационная техника
- 6.2. Вычислительная техника
- 6.3. Персональные компьютеры
- 6.4. Суперкомпьютеры
- 6.5. Периферийные устройства персонального компьютера
- 6.6. Презентационная техника
- Раздел 3. Организация компьютерных информационных систем
- Глава 7. Инструментальные средства компьютерных технологий информационного обслуживания управленческой деятельности
- 7.1. Основы построения инструментальных средств информационных технологий
- 7.2. Компьютерные технологии подготовки текстовых документов
- 7.3. Компьютерные технологии обработки экономической информации на основе табличных процессоров
- 8.4. Технологии использования систем управления базами данных
- 7. 5. Сетевые компьютерные технологии
- 7.6. Компьютерные технологии распределенной обработки данных
- 7.7. Компьютерные технологии поиска документальной информации
- 7.8. Технологии интегрированных программных пакетов
- 7.9. Компьютерные технологии интеллектуальной поддержки управленческих решений
- Темы курсовых работ
- Информация как главное средство управления.
- Информационные ресурсы в предпринимательстве.
- Вопросы для подготовки к экзамену
- Литература