logo search
ИТУ-МГУДТ

3.4. Языковые средства

Язык – это система знаков, служащая средством человеческого общения, мышления и выражения. С помощью языка осуществляется познание мира. Язык является специфическим социальным средством хранения и передачи информации, а также управления человеческим поведением. Любой язык состоит из алфавита, лексики и грамматики. Алфавит - система знаков, используемая для записи слов (буквы латинского алфавита, кириллица, цифры, пунктуационные знаки и т.д.). Лексика (словарный состав) – это совокупность слов, входящих в состав языка, называемых также лексическими единицами. Лексичес­кая единица - слово или семантически неделимое словосочетание, выражающее понятие. Под грамматикой понимается набор правил, по которым из конечного числа эле­ментов определенного типа (например, букв или слов) можно полу­чить язык для отражения содержания документов или запросов, или описания фактов с целью последующего поиска. Грамматика подраз­деляется на морфологию и синтаксис. Морфология отражает правила построения и изменения слов. Синтак­сис - правила построения и соединения слов (построения предложений).

Слова любого языка в процессе отображения объектов реального мира вступают между собой в определенные логические отношения, которые разделяются на парадигматические и синтагматические. Парадигматические отношения обусловлены предметно-логическими фак­торами и суще­ствуют между лексическими единицами независимо от кон­текста, в котором эти лексические единицы употребляются. Примеры парадигматических отношений: «часть - целое» (отдел - организа­ция): «род - вид» (ценная бумага - акция); причина-следствие; фун­кциональное сходство; ассоциации.

Синтагматические отношения - отношения слов при соединении их в словосочетания и предложения (при их использовании в тексте). Известный пример: фразы «защита окружающей среды от человека» и «защита человека от окружающей среды» имеют совершен­но разный смысл, хотя и состоят из одних и тех же слов.

В естественном языке (ЕЯ) присутствуют синони­мия, омонимия и полисемия, избыточность, и дру­гие свойства, препятствующие его непосредственному использованию для общения человека и компьютера. Искусственные языки представляют собой знаковые системы, создаваемые человеком на основе естественных языков путем идеализации и абстрагирования с целью эффективного решения различных теоретических или прикладных задач. Алгоритмические языки – это знаковые системы, предназначенные для описания процессов решения задач с помощью компьютера. Программа, записанная на алгоритмическом языке, задает компьютеру определенную последовательность действий.

По назначению алгоритмические языки делятся на языки программирования и языковые средства автоматизированной системы. Языки программирования применяются, преимущественно, для создания автоматизированных систем. Их используют в своей работе, главным образом, программисты, а также «продвинутые» в области информационных технологий пользователи. Языковые средства автоматизированной системы являются инструментом в руках обслуживающего персонала автоматизированных систем, а также неспециализированных пользователей.

Языки программирования, в зависимости от уровня детализации программируемого процесса, разделяют на следующие виды: машинные, машинно-ориентированные, машинно-независимые универсальные, а также проблемно-ориентированные. Машинные языки характеризуются тем, что представленные в их терминах команды непосредственно воспринимаются электронными схемами компьютера и реализуются без какого-либо предварительного преобразования. Команды в этих языках представляются различными сочетаниями двух символов – «0» и «1». Так, для микропроцессоров серии «Интел» 80Х86 (где Х есть любое число от 1 до 5) двухбайтовая последовательность битов 1000011000000111 означает команду «прибавить число 7 к тому, что находится в сумматоре» (сумматор - это регистр в центральном процессоре, который хранит последние результаты обработки). Неудобство машинных языков состоит в том, что процесс решения задачи должен описываться с максимальной степенью детализации, что является весьма трудоемким и длительным процессом. Использовать такие языки могут только программисты.

Машинно-ориентированные языки, в частности, язык Ассемблера, используют мнемонику для обозначения машинных операций и обладают некоторым набором синтаксических форм. В то же время, степень детализации описания программы остается высокой. На языке ассемблера микропроцессоров «Интел» 80Х86 указанная выше команда выглядит так: ADD 07. Программы на языке Ассемблера обеспечивают значительно более компактную форму команд, однако текст программы оказывается весьма длинным. Для программирования на языке Ассемблера требуется высокая квалификация специализированных пользователей и знание конкретной архитектуры вычислительной системы. Машинные и машинно-ориентированные языки нередко обозначаются как низкоуровневые.

Машинно-независимые универсальные языки позволяют осуществлять запись программ с помощью операторов, обозначающих целые группы машинных операций. Языки этой группы обладают мощными средствами автоматического поиска ошибок, сокращающими время отладки программ. Запись программ близка к языку математических формул. Подобного рода языки не требуют длительного времени для освоения, используются широким кругом пользователей и пригодны для компьютеров различных типов. К их числу относятся языки Фортран, Кобол, Си, Бейсик, Паскаль и др. Некоторые языки этого класса специально приспособлены для решения некоторого типа задач. Так, Фортран наиболее эффективен при осуществлении математических вычислений. Кобол – предназначен для решения экономических задач, обработки больших файлов (например, платежных, инвентаризационных ведомостей).

Проблемно-ориентированные языки предназначены для решения задач в некоторой весьма узкой области. Эти языки значительно упрощают процесс программирования: для решения задачи требуется указание исходных данных и некоторой управляющей информации, причем алгоритм решения формирует компьютер. К числу этих языков относятся Лисп и Пролог, которые применяются для проведения исследований в области искусственного интеллекта.

Все указанные языки являются процедурными, т.е. дают компьютеру подробные пошаговые команды. В отличие от них объектно-ориентированные языки базируются на выделении совокупности логических объектов, которые имеют точно определенный набор характеристик и позволяют записывать программу в еще более обобщенном виде. Примером таких языков могут служить Си++, а также различные версии Турбо Паскаля.

Машинно-независимые универсальные, проблемно-ориентированные и объектно-ориентированные языки принято обозначать как высокоуровневые. Высокоуровневые языки используют значительно больше машинной памяти, чем язык Ассемблера, однако работать с ними гораздо легче.

Языковые средства автоматизированной системы обеспечивают возможность общения информационных работников, субъектов управления с системой в процессе накопления, обработки и выдачи информации путем описания входных сообщений, запросов, а также операций и процедур, выполняемых над информацией в различных режимах и на различных этапах ее переработки. Основные языковые средства автоматизированной системы включают в себя:

- средства формализованного представления информации, поступающей на вход системы для ее ввода в банк данных, - входной язык;

- средства формализованного представления информации, хранимой в банке данных, - информационный язык;

- средства формализованного представления информационных задач, решаемых системой, - язык запросов (информационно-поисковый язык);

- средства формализованного представления корректирующей информации (язык коррекции), а также процедур ее обработки;

Вспомогательные языковые средства автоматизированной системы включают в себя аппарат настройки технологических схем, таблиц контроля и трансляции информации, ведения внутрисистемных промежуточных файлов, ведения и поддержания в актуальном состоянии служебной информации для различных режимов обработки содержательной информации и средств ее защиты от несанкционированного доступа. Рассмотрим подробнее понятие, виды и особенности использования информационно-поисковых языков.

Информационно-поисковый язык (ИПЯ) - это язык для выражения содержания документов или запросов с целью их последующего поиска. Основное назначение ИПЯ - установить принадлежность того или иного до­кумента к определенной группе понятий. В результате индексирования содержание документа отображается в поисковый образ документа (ПОД), а содер­жание запроса - в поисковое предписание (ПП).

Для оценки сравнительной эффективности различных ИПЯ используется понятие «семантическая сила языка». Семантическая сила ИПЯ характеризует смысловыразительные возможности ИПЯ и показывает, насколько ИПЯ уступает ЕЯ. Се­мантическая сила тем больше, чем богаче словарный состав ИПЯ и шире его словообразовательные возможности (создания новых слов, соответствующих новым понятиям), шире используются средства отображения парадигматических и синтагматических отношений между словами.

Семантически развитый ИПЯ должен:

- располагать лексико-грамматическими средствами для точного отображения центральной темы документа и запроса;

- не содержать полисемии, синонимии и омонимии, т. е. каждая запись на ИПЯ должна допускать только одно толкование;

- отображать только объективные характеристики предметов и отношений между ними;

- быть удобным для алгоритмического сопоставления (отождествле­ния) поискового образа документа (ПОД) и поискового предписания (ПП).

ИПЯ классифицируются по способу организации понятий на предкоординируемые (классификационные) и посткоординируемые (дескрипторные). Предкоординируемые языки предполагают предварительное (до ин­дексирования) построение сложных классов путем логического ум­ножения (координации) простых классов, при этом словарный состав зада­ется в виде фиксированного перечня слов, словосочетаний и фраз. При индексировании документов или запросов используют­ся только слова, словосочетания и фразы, содержащиеся в указанном перечне.

Посткоординируемые языки основаны на ме­тоде координатного индексирования, которое предполагает, что основное смысловое содержание текста (документа) или информа­ционного запроса представляется в виде сочетания ключевых слов или дескрипторов. В посткоординируемых ИПЯ лексические единицы объединяются в поисковом образе лишь во вре­мя индексирования документа. Словарь дескрипторного ИПЯ состоит из специально отобранных слов или словосоче­таний - ключевых слов и дескрипторов.

Ключевые слова - это наиболее существенные для отображения содержания документа слова и словосочетания, выполняющие назыв­ную функцию, т.е. обозначающие объекты, явле­ния, процессы, вещи и т.д. (в качестве ключевого слова не может выступать предлог, союз и др.).

В свою очередь, в составе классификационных языков принято выделять ИПЯ иерархического типа, ИПЯ фасетного типа, а также алфавитно-предметные классификации. Иерархическая классификация - это перечислительная класси­фикация (все возможные классы перечислены заранее), в кото­рой каждый класс делится на подклассы. Термины в иерархической классификации расположены в порядке от общего к частному. Индексирование с использованием ИПЯ иерархического типа заключается в определении того, к какому классу относится описы­ваемый объект, и в определении по классификационной таблице и алфавитному указателю индекса этого класса. Преимуществом языков данного типа состоит в простоте индексирования и поиска. Они наиболее эффективны, когда классы в иерархической системе располагаются в естественном порядке и набор классов с течением времени не изменя­ется (т. е. предметы естественно находятся в жесткой иерархической соподчиненности).

ИПЯ фасетного типа предполагают, что каждый конкретный класс строится в процессе индексирования по определенным правилам (фасетной формуле) из предварительно за­данных элементов - фасетов. В этих ИПЯ отсутствует заблаговременно составленный перечень всех возможных клас­сов. Преимущество таких ИПЯ состоит в том, что они обеспечивают многоаспектное индексирование (существует возможность получать любые сочетания заранее вы­бранных характеристик объектов классификации).

Алфавитно-предметная классификация - система классов, каж­дый из которых соответствует определенной теме или одному виду предметов, причем классы расположены в алфавитном порядке имен этих классов. Алфавитно-предметная классификация содержит:

- предметный заголовок - слово, словосочетание или фраза ЕЯ, используемое для обозначения предмета или темы, заголовок может подразделяться на подзаголовки;

- предметный словник (лексический состав языка) - упорядочен­ное по алфавиту множество предметных заголовков, используемых для построения алфавитно-предметной классификации;

- предметную рубрику - предметный заголовок с указанием адреса хранения документов, основная тема которых обо­значается этим предметным заголовком.

Алфавитно-предметная классификация предназначена для пост­роения каталогов для узко предметного поиска. В таких каталогах под предметными заголовками даются сведения (шифр или библиогра­фическое описание) документов, предмет которых обозначен данным заголовком. Для алфавитно-предметного индексирования может быть применено несколько предметных заголовков. Но при информационном поиске каждый предметный заголовок выступает самостоятельно без какой-либо связи с другими заголовками, т.е. можно пользоваться только заранее описанными классами.

Основной недостаток классификационных языков состоит в том, что они не обеспечивают возможности поиска документов по любо­му, заранее не заданному сочетанию признаков.

Дескрипторные ИПЯ семантически более сильны, чем класси­фикационные, но более сложны для формальной обработки. Дескриптор - ключевое слово или словосочетание, служащее име­нем класса эквивалентных ключевых слов (синонимов). В качестве дескриптора выбирают одно, наиболее употребимое ключевое слово из класса синонимичных ключевых слов.

При координатном индексировании классы формируются в процессе индексирования. Поисковое предписание фор­мулируется в виде логических сумм (или), произведений (и) или до­полнений (не) классов, соответствующих ключевым словам поиско­вого предписания (чаще всего это произведение). При поиске документов в случае координатного индексирования производятся определенные логические операции над классами, обо­значенными этими ключевыми словами. Для отыскания документов, отвечающих на запрос, необходимо выполнить определенные логические операции над классами, кото­рые обозначены ключевыми словами. Разработка дескрипторного языка сводится к разра­ботке информационно-поискового тезауруса.