logo search
ИТУ-МГУДТ

4.5. Накопление информации

Процесс накопления информации включает в себя следующие основные операции: формализацию данных, индексирование документов, комплектование информационных фондов. Применяются и некоторые дополнительные операции, в их числе аннотирование, реферирование, контроль непротиворечивости формализованных описаний и др.

Формализация данных означает приведение данных, поступающих из различных источников, к одинаковой форме для того, чтобы сделать их сопоставимыми друг с другом, т.е. повысить их доступность. При формализации (преобразовании) информации осуществляется аналитико-синтетическое изучение содержания исходной информации, зафиксированной в первичном или выводном документе и подготовка в дополнение к ней вторичной информации, отражающей наиболее существенные элементы исходной информации;

Формализация информации является в большинстве случаев необходимым условием для осуществления ее эффективной автоматизированной обработки после оценки и отбора из соответствующих источников. Назначением процесса формализации является выделение и фиксация значений реквизитов, по которым будем производиться идентификация объектов учета при накоплении информации и ее поиск в ходе решения информационных задач. Основное правило при этом – адекватность формализованного представления сведений, т.е. его точное по смыслу соответствие данным в первичном документе. На основе наиболее существенных с позиций субъекта управления элементов содержания информации в отношении объектов учета осуществляется поиск и сопоставление данных, решение статистических задач.

Правила формализации сведения устанавливаются с помощью различного рода анкет, информационных карт, бланков, которые определяют структуру накапливаемой информации, а также инструкций по их заполнению. Инструкции уточняют толкование и назначение реквизитов, фиксируется способ их заполнения (текст или код), указываются номера используемых словарей, формулируются требования по заполнению различных входных документов, при необходимости устанавливается порядок записи слов и словосочетаний, составляющих наименования различных объектов учета, перечень допустимых сокращений и аббревиатур, правила применения знаков пунктуации, присоединительных союзов, правила транскрипции и транслитерации и т.д. Соответствующие инструктивные документы учитывают особенности информации в отношении различных объектов учета, а также ее формализованного представления. Использование подобного рода инструкций позволяет повысить адекватность формализованного представления информации, исключить противоречия в формализованном представлении информации об объекте, сократить ошибки при индексировании. Единство правил формализации информации, содержащейся в различных источниках и различающейся по содержанию и характеру, способам и приемам получения и закрепления, правовому значению, является залогом обеспечения ее сопоставимости и делает принципиально возможной дифференцированную обработку с учетом особенностей источников.

Индексирование документа - это процедура описания основного содержания документа в терминах информационно-поискового языка. Результат индексирования – это поисковый образ документа. По сути это - отображение текста документа в специальную форму (индекс документа), предназначенную для автомати­ческой обработки. Документу назначается обычно от 6 до 20 терминов.

Существуют следующие виды индексирования: ручное, автоматическое и смешанное. При руч­ном индексировании информационный работник на основе анализа содержания документа отображает текст документа в набор ключевых слов или дескрипторов. Это своего рода искусство. Преимуществом ручного индексирования является его высокое качества. Не­достатками - низкая производительность, высокая стоимость и субъективизм (возможна ситуация, когда один и тот же документ, обработанный раз­личными специалистами, может получить различные индексы). Автоматическое индексирование осу­ществляется компьютерной системой, при этом текст документа рассматривается как множество словоформ - символов, разделенных пробелами. Этот процесс базируется на автоматическом морфологическом и синтаксическом анализе текста. Автоматическое индексирование означает существенное сокращение трудовых и временных затрат, связанных с систематизацией информации.

Морфологический анализ текста - анализ структур словоформ, рассматриваемых изолированно друг от друга с целью распознавания в них слов естественного языка. В ходе морфологического анализа текста осуществляется выделение из текста словоформ, распознавание слов или их сочетаний, распознава­ние грамматических признаков словоформ (часть речи, падеж и т. п.), нормали­зация словоформ (их приведение к словарному виду). Для анализа текста используются авто­матические словари двух типов. К первому типу относятся словари, используемые для распознавания сло­воформ и их нормализации - словарь словоформ, словарь основ слов, словарь окончаний, словарь устойчивых словосочетаний. Вместо таких словарей для нормализации слов используются алгоритмы, позволяющие преобразовывать различные грамматические формы слов. Исчезает необходи­мость заносить в словарь все возможные формы слов, уменьшается объем словарей, увеличивается эффективность поиска, так как в тексте могут быть найдены все грамматические формы слова, заданного в запросе. Ко второму типу относятся информационно-поисковые тезаурусы, которые содержат информацию об отношениях между словами – подчинения, условной эквивалентности, ассоциативных.

Синтаксический анализ текста представляет собой исследование структуры предложения текста с целью установления синтаксичес­ких связей между членами предложения, при этом используются результаты морфологического анализа. Дело в том, что значительная доля смысла текста содержится именно в отношениях между словами. Основой для разработки методов синтаксического анализа являются исследования в области математической лингвистики и систем машинного перевода.

Для выбора в тексте информативных ключевых слов применяются методы статистического анализа, которые позволяют рассчитывать соответствующие параметры: число вхождений слова в документ, общее число вхождения слова в документы данной тематики, относительную частоту вхождения слова в документ. Считает­ся, что пик информативности приходится на слова со средней частотой встречаемости, причем очень редкие, а также наиболее часто встречаемые термины в качестве информативных слов использоваться не могут. Вместе с тем, статистическими методами невозможно в полном объеме решить задачу оценки информативности слов текста, поэтому они используются как вспомогательные. В целом автоматическое индексирование уступает по качеству ручному.

Комплектование информационного фонда (банка данных) состоит в составлении и систематическом пополнении различного рода массивов формализованной информации и документальных материалов, используемых в интересах субъекта управления; сосредоточение информации в определенных организационных звеньях организационной структуры, в которых принимаются управленческие решения.

При комплектовании информационных фондов в ряде автоматизированных систем ключевым моментом является идентификация информационных объектов. Постановка задачи идентификации объекта учета в информационной системе совпадает с ее постановкой в теории криминалистической идентификации. Целью идентификации является установление «того же самого объекта», т.е. объекта, тождественного самому себе, а не «такого же объекта», что характерно для идентификации в химии, физике, биологии, когда осуществляется определение групповой (родовой или видовой) принадлежности объекта. Для каждого объекта учета используются специфичные наборы характеристик для идентификации. Такого рода наборы имеются, в частности, для лица, организации, факта, события как объектов учета. Состав характеристик, используемых для идентификации объекта, зависит от предметной области автоматизированной системы. Так, физическое лицо может быть идентифицировано по так называемым номинативными данным, в их числе фамилия, имя, отчество (второе имя), псевдонимы, дата рождения, пол, национальность, гражданство место рождения. Ключевыми с точки зрения идентификации являются следующие признаки: табельный номер работника, фамилия, имя, отчество, второе имя, либо псевдоним. Для специальных приложений существуют методики идентификации физического лица по его характеризующим данным.

Социальная организация может быть идентифицирована по одному или нескольким видам ее наименований – действительному, открытому (полным или различных видов сокращенным), а также условному. Дополнительной сложностью при идентификации организации является то обстоятельство, что, в отличие от номинативных данных лица, ее наименование не структуризовано: составляющие его словосочетания отражают различные аспекты деятельности организации, состав которых обычно не регламентирован, количество и последовательность произвольны. Для идентификации организации может быть использованы также адрес дислокации организации и иные признаки ее описания (государственная и ведомственная принадлежность, государственно-правовой и международно-правовой статус, организационная подчиненность, профиль деятельности, тип организации и др.).

Существенной с точки зрения процедуры идентификации особенностью информации, накапливаемой в некоторых системах социальной информации, и прежде всего названий объектов учета, является ее подверженность искажениям. Это связано, с одной стороны, с определяющим значением для проведения идентификации графического представления (изображения) информации, а с другой – ограниченностью возможностей его фиксации различными средствами получения информации и многократным воспроизведением информации в процессе производственной и иной деятельности перед осуществлением идентификации в информационной системе.

Информация в отношении объектов учета может быть получены с помощью технических средств непосредственной фиксации сведений, отражающих течение технологических процессов, воспроизведена с документа, записана со слов работника, получена с использованием аудио- и видеозаписи и т.д. Сфомированное с помощью указанных источников графическое изображение названия объекта учета может быть искажено в результате перестановки букв, их замены, перестановки слогов и т.д. Такого рода искажение может произойти при восприятии названия объекта учета на слух, особенно если название незнакомо снимающему информацию или передано на иностранном языке (в этом случае могут возникнуть погрешности, связанные с транскрипцией или транслитерацией информации).

Возможности осуществления идентификации объектов повышаются вследствие использования единых методов формализации информации, программных средств, реализующих методы морфологического и синтаксического анализа и учитывающих наиболее вероятные искажения, а также за счет расширения информационной базы для идентификации (увеличения количества объектов данного типа, стоящих на учете в информационной системе).

Аннотирование представляет собой подготовку краткой характеристики документа с точки зрения содержания, назначения, формы и других особенностей. Реферирование – это краткое изложение содержания документа.

Для процесса накопления информации наиболее критичными, т.е. максимально влияющими на ее качество, являются адекватность систематизации информации, а также непротиворечивость накапливаемых данных.