ИТУ-МГУДТ

3.4. Языковые средства

Язык – это система знаков, служащая средством человеческого общения, мышления и выражения. С помощью языка осуществляется познание мира. Язык является специфическим социальным средством хранения и передачи информации, а также управления человеческим поведением. Любой язык состоит из алфавита, лексики и грамматики. Алфавит - система знаков, используемая для записи слов (буквы латинского алфавита, кириллица, цифры, пунктуационные знаки и т.д.). Лексика (словарный состав) – это совокупность слов, входящих в состав языка, называемых также лексическими единицами. Лексическая единица - слово или семантически неделимое словосочетание, выражающее понятие. Под грамматикой понимается набор правил, по которым из конечного числа элементов определенного типа (например, букв или слов) можно получить язык для отражения содержания документов или запросов, или описания фактов с целью последующего поиска. Грамматика подразделяется на морфологию и синтаксис. Морфология отражает правила построения и изменения слов. Синтаксис - правила построения и соединения слов (построения предложений).

Слова любого языка в процессе отображения объектов реального мира вступают между собой в определенные логические отношения, которые разделяются на парадигматические и синтагматические. Парадигматические отношения обусловлены предметно-логическими факторами и существуют между лексическими единицами независимо от контекста, в котором эти лексические единицы употребляются. Примеры парадигматических отношений: «часть - целое» (отдел - организация): «род - вид» (ценная бумага - акция); причина-следствие; функциональное сходство; ассоциации.

Синтагматические отношения - отношения слов при соединении их в словосочетания и предложения (при их использовании в тексте). Известный пример: фразы «защита окружающей среды от человека» и «защита человека от окружающей среды» имеют совершенно разный смысл, хотя и состоят из одних и тех же слов.

В естественном языке (ЕЯ) присутствуют синонимия, омонимия и полисемия, избыточность, и другие свойства, препятствующие его непосредственному использованию для общения человека и компьютера. Искусственные языки представляют собой знаковые системы, создаваемые человеком на основе естественных языков путем идеализации и абстрагирования с целью эффективного решения различных теоретических или прикладных задач. Алгоритмические языки – это знаковые системы, предназначенные для описания процессов решения задач с помощью компьютера. Программа, записанная на алгоритмическом языке, задает компьютеру определенную последовательность действий.

По назначению алгоритмические языки делятся на языки программирования и языковые средства автоматизированной системы. Языки программирования применяются, преимущественно, для создания автоматизированных систем. Их используют в своей работе, главным образом, программисты, а также «продвинутые» в области информационных технологий пользователи. Языковые средства автоматизированной системы являются инструментом в руках обслуживающего персонала автоматизированных систем, а также неспециализированных пользователей.

Языки программирования, в зависимости от уровня детализации программируемого процесса, разделяют на следующие виды: машинные, машинно-ориентированные, машинно-независимые универсальные, а также проблемно-ориентированные. Машинные языки характеризуются тем, что представленные в их терминах команды непосредственно воспринимаются электронными схемами компьютера и реализуются без какого-либо предварительного преобразования. Команды в этих языках представляются различными сочетаниями двух символов – «0» и «1». Так, для микропроцессоров серии «Интел» 80Х86 (где Х есть любое число от 1 до 5) двухбайтовая последовательность битов 1000011000000111 означает команду «прибавить число 7 к тому, что находится в сумматоре» (сумматор - это регистр в центральном процессоре, который хранит последние результаты обработки). Неудобство машинных языков состоит в том, что процесс решения задачи должен описываться с максимальной степенью детализации, что является весьма трудоемким и длительным процессом. Использовать такие языки могут только программисты.

Машинно-ориентированные языки, в частности, язык Ассемблера, используют мнемонику для обозначения машинных операций и обладают некоторым набором синтаксических форм. В то же время, степень детализации описания программы остается высокой. На языке ассемблера микропроцессоров «Интел» 80Х86 указанная выше команда выглядит так: ADD 07. Программы на языке Ассемблера обеспечивают значительно более компактную форму команд, однако текст программы оказывается весьма длинным. Для программирования на языке Ассемблера требуется высокая квалификация специализированных пользователей и знание конкретной архитектуры вычислительной системы. Машинные и машинно-ориентированные языки нередко обозначаются как низкоуровневые.

Машинно-независимые универсальные языки позволяют осуществлять запись программ с помощью операторов, обозначающих целые группы машинных операций. Языки этой группы обладают мощными средствами автоматического поиска ошибок, сокращающими время отладки программ. Запись программ близка к языку математических формул. Подобного рода языки не требуют длительного времени для освоения, используются широким кругом пользователей и пригодны для компьютеров различных типов. К их числу относятся языки Фортран, Кобол, Си, Бейсик, Паскаль и др. Некоторые языки этого класса специально приспособлены для решения некоторого типа задач. Так, Фортран наиболее эффективен при осуществлении математических вычислений. Кобол – предназначен для решения экономических задач, обработки больших файлов (например, платежных, инвентаризационных ведомостей).

Проблемно-ориентированные языки предназначены для решения задач в некоторой весьма узкой области. Эти языки значительно упрощают процесс программирования: для решения задачи требуется указание исходных данных и некоторой управляющей информации, причем алгоритм решения формирует компьютер. К числу этих языков относятся Лисп и Пролог, которые применяются для проведения исследований в области искусственного интеллекта.

Все указанные языки являются процедурными, т.е. дают компьютеру подробные пошаговые команды. В отличие от них объектно-ориентированные языки базируются на выделении совокупности логических объектов, которые имеют точно определенный набор характеристик и позволяют записывать программу в еще более обобщенном виде. Примером таких языков могут служить Си++, а также различные версии Турбо Паскаля.

Машинно-независимые универсальные, проблемно-ориентированные и объектно-ориентированные языки принято обозначать как высокоуровневые. Высокоуровневые языки используют значительно больше машинной памяти, чем язык Ассемблера, однако работать с ними гораздо легче.

Языковые средства автоматизированной системы обеспечивают возможность общения информационных работников, субъектов управления с системой в процессе накопления, обработки и выдачи информации путем описания входных сообщений, запросов, а также операций и процедур, выполняемых над информацией в различных режимах и на различных этапах ее переработки. Основные языковые средства автоматизированной системы включают в себя:

- средства формализованного представления информации, поступающей на вход системы для ее ввода в банк данных, - входной язык;

- средства формализованного представления информации, хранимой в банке данных, - информационный язык;

- средства формализованного представления информационных задач, решаемых системой, - язык запросов (информационно-поисковый язык);

- средства формализованного представления корректирующей информации (язык коррекции), а также процедур ее обработки;

средства формализованного представления и редактирования выходной информации системы, - язык описания и редактирования выходных форм.

Вспомогательные языковые средства автоматизированной системы включают в себя аппарат настройки технологических схем, таблиц контроля и трансляции информации, ведения внутрисистемных промежуточных файлов, ведения и поддержания в актуальном состоянии служебной информации для различных режимов обработки содержательной информации и средств ее защиты от несанкционированного доступа. Рассмотрим подробнее понятие, виды и особенности использования информационно-поисковых языков.

Информационно-поисковый язык (ИПЯ) - это язык для выражения содержания документов или запросов с целью их последующего поиска. Основное назначение ИПЯ - установить принадлежность того или иного документа к определенной группе понятий. В результате индексирования содержание документа отображается в поисковый образ документа (ПОД), а содержание запроса - в поисковое предписание (ПП).

Для оценки сравнительной эффективности различных ИПЯ используется понятие «семантическая сила языка». Семантическая сила ИПЯ характеризует смысловыразительные возможности ИПЯ и показывает, насколько ИПЯ уступает ЕЯ. Семантическая сила тем больше, чем богаче словарный состав ИПЯ и шире его словообразовательные возможности (создания новых слов, соответствующих новым понятиям), шире используются средства отображения парадигматических и синтагматических отношений между словами.

Семантически развитый ИПЯ должен:

- располагать лексико-грамматическими средствами для точного отображения центральной темы документа и запроса;

- не содержать полисемии, синонимии и омонимии, т. е. каждая запись на ИПЯ должна допускать только одно толкование;

- отображать только объективные характеристики предметов и отношений между ними;

- быть удобным для алгоритмического сопоставления (отождествления) поискового образа документа (ПОД) и поискового предписания (ПП).

ИПЯ классифицируются по способу организации понятий на предкоординируемые (классификационные) и посткоординируемые (дескрипторные). Предкоординируемые языки предполагают предварительное (до индексирования) построение сложных классов путем логического умножения (координации) простых классов, при этом словарный состав задается в виде фиксированного перечня слов, словосочетаний и фраз. При индексировании документов или запросов используются только слова, словосочетания и фразы, содержащиеся в указанном перечне.

Посткоординируемые языки основаны на методе координатного индексирования, которое предполагает, что основное смысловое содержание текста (документа) или информационного запроса представляется в виде сочетания ключевых слов или дескрипторов. В посткоординируемых ИПЯ лексические единицы объединяются в поисковом образе лишь во время индексирования документа. Словарь дескрипторного ИПЯ состоит из специально отобранных слов или словосочетаний - ключевых слов и дескрипторов.

Ключевые слова - это наиболее существенные для отображения содержания документа слова и словосочетания, выполняющие назывную функцию, т.е. обозначающие объекты, явления, процессы, вещи и т.д. (в качестве ключевого слова не может выступать предлог, союз и др.).

В свою очередь, в составе классификационных языков принято выделять ИПЯ иерархического типа, ИПЯ фасетного типа, а также алфавитно-предметные классификации. Иерархическая классификация - это перечислительная классификация (все возможные классы перечислены заранее), в которой каждый класс делится на подклассы. Термины в иерархической классификации расположены в порядке от общего к частному. Индексирование с использованием ИПЯ иерархического типа заключается в определении того, к какому классу относится описываемый объект, и в определении по классификационной таблице и алфавитному указателю индекса этого класса. Преимуществом языков данного типа состоит в простоте индексирования и поиска. Они наиболее эффективны, когда классы в иерархической системе располагаются в естественном порядке и набор классов с течением времени не изменяется (т. е. предметы естественно находятся в жесткой иерархической соподчиненности).

ИПЯ фасетного типа предполагают, что каждый конкретный класс строится в процессе индексирования по определенным правилам (фасетной формуле) из предварительно заданных элементов - фасетов. В этих ИПЯ отсутствует заблаговременно составленный перечень всех возможных классов. Преимущество таких ИПЯ состоит в том, что они обеспечивают многоаспектное индексирование (существует возможность получать любые сочетания заранее выбранных характеристик объектов классификации).

Алфавитно-предметная классификация - система классов, каждый из которых соответствует определенной теме или одному виду предметов, причем классы расположены в алфавитном порядке имен этих классов. Алфавитно-предметная классификация содержит:

- предметный заголовок - слово, словосочетание или фраза ЕЯ, используемое для обозначения предмета или темы, заголовок может подразделяться на подзаголовки;

- предметный словник (лексический состав языка) - упорядоченное по алфавиту множество предметных заголовков, используемых для построения алфавитно-предметной классификации;

- предметную рубрику - предметный заголовок с указанием адреса хранения документов, основная тема которых обозначается этим предметным заголовком.

Алфавитно-предметная классификация предназначена для построения каталогов для узко предметного поиска. В таких каталогах под предметными заголовками даются сведения (шифр или библиографическое описание) документов, предмет которых обозначен данным заголовком. Для алфавитно-предметного индексирования может быть применено несколько предметных заголовков. Но при информационном поиске каждый предметный заголовок выступает самостоятельно без какой-либо связи с другими заголовками, т.е. можно пользоваться только заранее описанными классами.

Основной недостаток классификационных языков состоит в том, что они не обеспечивают возможности поиска документов по любому, заранее не заданному сочетанию признаков.

Дескрипторные ИПЯ семантически более сильны, чем классификационные, но более сложны для формальной обработки. Дескриптор - ключевое слово или словосочетание, служащее именем класса эквивалентных ключевых слов (синонимов). В качестве дескриптора выбирают одно, наиболее употребимое ключевое слово из класса синонимичных ключевых слов.

При координатном индексировании классы формируются в процессе индексирования. Поисковое предписание формулируется в виде логических сумм (или), произведений (и) или дополнений (не) классов, соответствующих ключевым словам поискового предписания (чаще всего это произведение). При поиске документов в случае координатного индексирования производятся определенные логические операции над классами, обозначенными этими ключевыми словами. Для отыскания документов, отвечающих на запрос, необходимо выполнить определенные логические операции над классами, которые обозначены ключевыми словами. Разработка дескрипторного языка сводится к разработке информационно-поискового тезауруса.

Содержание