5 Работа с источниками текстовой информации
Оставим рассмотрение «экзотических» случаев: использования спутников- и самолетов- шпионов, добывания экспериментального образца методом подкупа вахтера и иные, столь же далекие от повседневной работы «чистого» аналитика. Хотя случаи работы с несимвольной информацией встречаются достаточно часто — например, могут проводиться работы по определению химического состава или конструктивных особенностей продукции непосредственно с ее образцами, а не с описаниями таковых.
Сосредоточим свое внимание на классе источников символьных данных, а еще точнее — текстовых данных. Класс текстовых данных обладает максимальным прогностическим потенциалом при минимальном интервале наблюдений — в одном кратком предложении может быть выражена информация, достаточная для описания поведения объекта или процесса на сколь угодно отдаленную перспективу. В то же время, точность этого вида данных крайне низка, они подвержены многим видам искажений. Особенно низка их устойчивость к целенаправленной модификации. Но, сколь бы плохи или хороши они ни были, такие данные часто бывают единственным, что доступно аналитику.
Чаще всего, в повседневной деятельности нам приходится сталкиваться с классом источников информации, имеющих в своей основе языковые (знаковые или символьные) средства коммуникации: книги, периодические издания различной специализации, телевидение, радио, телефон, персональные коммуникации, ресурсы глобальных, региональных и локальных телекоммуникационных сетей. Данный класс коммуникаций, если исключить персональные ощущения и специальные технологии, является основным каналом пополнения личного (персонально пережитого) и социального (полученного в результате коммуникаций) опыта и знаний. Количество только языковой информации (исключая видеоряд), которое поступает по каналам этого класса источников, в принципе, позволяет сложной системе типа «человек» адаптивно реагировать на изменение ситуации, вырабатывать цели, стратегии, синтезировать новую информацию и добывать новые знания. Более того, этой информации достаточно для управления и другими людьми, не говоря уж о технических системах, созданных человеком.
Практика показывает, что этот класс источников обладает колоссальной информационной емкостью, другое дело, что «плотность» информации (коэффициент информативности данных) существенно варьируется от издания к изданию, от выпуска к выпуску, от программы к программе. Еще сложнее дело обстоит с релевантностью информации (ее свойством соответствовать текущим информационным потребностям субъекта): данных, содержащих релевантную информацию значительно меньше. А если учесть и иные ограничения, все более и более сужающие перечень источников и сообщений, то можно сделать вывод, что относительное количество сообщений, отвечающих потребностям управления некоторой конкретной системой в заданных условиях, крайне мало. К числу таких ограничений относятся: актуальность (возможность использования информации для управления системой или процессом в их современном состоянии), своевременность (возможность использовать информацию в контуре управления с учетом быстродействия подсистемы доведения управляющих воздействий), точность, достоверность, непротиворечивость и иные. Соответственно при всем обилии информации, которая может быть в принципе извлечена из всей совокупности источников, доля информации, представляющей ценность для ИАР, направленной на достижение некоторой цели, относительно невысока.
Коль скоро мы решили, что в этом подразделе проблемы поиска, отбора и экспресс-анализа информации будут рассматриваться применительно к классу источников, использующих для представления информации языковые средства, то, в первую очередь, нам следует проанализировать состав этого класса и режимы коммуникации (коммуникационные ситуации). В типовой коммуникационной ситуации (при обмене информацией между производителем и потребителем информации в режиме реального времени) в качестве основных источников текстовой информации может выступать всего два типа систем: разумные (человек), интеллектуальные (системы искусственного интеллекта). Перечисленные системы способны самостоятельно генерировать новые тексты и информацию, то есть являются источниками и в узком, и в широком смысле, а также могут выступать в роли первичных источников текстовой информации. При наличии задержки в канале коммуникации речь идет о наличии промежуточного материального носителя информации, который обеспечивает возможность длительного хранения информации без внесения собственных искажений. Такие носители информации также могут рассматриваться в качестве источника информации, хотя сами не способны продуцировать информацию.
Чаще всего языковые средства коммуникации реализуют неоперативный режим коммуникации с использованием средств символьного представления информации (текстов). Поэтому, когда речь идет о неоперативной языковой коммуникации, в качестве источников принято рассматривать второй класс источников (материальные носители текстов). Если ввести строгие классификационные основания, то к классу источников, обеспечивающих неоперативные языковые коммуникации, следует причислять:
источники неоперативной информации (хранилища, архивы и библиотеки, содержащие текстовые документы):
на традиционных носителях символьных данных: бумага, фотопленка и т. д. (книги, журналы, реферативные журналы, газеты, рукописи, микропленки и иные);
на нетрадиционных носителях символьных данных: магнитные ленты и диски, магнитооптические и оптические накопители ЭВМ, голографические накопители, электронные запоминающие устройства, сети ЭВМ различного уровня интеграции и т. д. (файлы, базы данных, хранилища данных, геоинформационные системы, глобальные, региональные и локальные сети ЭВМ и иные);
источники оперативной информации (коммуникационные и связные системы, реализующие функцию коммуникации посредством передачи текстовых данных в символьном формате):
воспроизводимые данные (зарегистрированные на материальных носителях, для которых существует возможность повторного воспроизведения), передаваемые в каналах связных и телекоммуникационных систем, основанных на различных физических принципах действия, в том числе, воспроизведенные методом оптической проекции и т. д.;
невоспроизводимые данные (возможность регистрации которых на материальных носителях и повторного воспроизведения отсутствует по тем или иным причинам), передаваемые в каналах связных и телекоммуникационных систем, основанных на различных физических принципах действия, в том числе, воспроизведенные методом оптической проекции и т. д.
Источники информации, не воспроизводимой с требуемой степенью точностью, мы исключим из рассмотрения в силу их малой полезности, а также по причине того, что их поиск становится невозможным в силу отсутствия доступа к материальной копии. Впрочем, определив потенциального носителя таких данных или расположение материальной копии, возможно организовать доступ к материальной копии или носителю сведений, как, например, в случае захвата вражеского «языка», получения несанкционированного доступа к данным и иных случаях насильственного изъятия информации.
При наличии доступа к материальной копии информации (данным) всю совокупность доступных данных можно рассматривать в качестве источниковой базы проведения исследований. В этом случае, решив проблему согласования форматов представления, аналитик получает возможность применения комплекса информационных технологий к полученному массиву текстов. При этом, как мы уже указывали, аналитиком решается задача сжатия или обобщения информации, первыми этапами которой является отбор текстов, релевантных теме исследования, то есть — формирование специализированного массива текстов, которые имеют отношение к решаемой задаче.
При этом выделяются два класса источников, не рассматривавшихся в предложенной ранее классификации, а именно: класс источников неструктурированных текстовых данных и класс источников структурированных текстовых данных. При этом под текстом можно понимать и числа, как частный случай.
- Оглавление
- К читателю
- Введение
- Глава I сущность, структура и задачи аналитики
- 1 Понятие и сущность аналитики
- 2 Структура, задачи и место аналитики в современных интеллектуальных технологиях
- 3 Аналитика как средство добывания знаний
- 4 Понятийный аппарат аналитики
- Глава II. Методология аналитической деятельности
- 1 Основные методологические системы
- 1.1 Философия, логика, семиотика
- 1.2 Естественнонаучные концепции
- 1.3 Кибернетика и системный анализ
- 1.4 Гуманитарные науки
- 1.5 Теоретические основы системного анализа как методологического ядра аналитики
- 2 Методы формализации предметной области и моделирование
- 2.1 Понятие сложной системы
- 2.2 Моделирование как метод познания
- 2.3 Вербальные или понятийные модели
- 2.4 Логико-лингвистические и семиотические модели и представления
- 2.5 Логические модели
- 2.6 Статистические, теоретико-вероятностные модели
- 2.7 Аналитические модели
- 2.8 Имитационные модели
- 3 Аналитика как интерфейс между теорией и практикой
- 3.1 Методы активизации мышления
- 3.2 Методы структурирования информации
- 3.3 Методы обработки и анализа числовых данных
- Глава III принципы организации аналитической деятельности
- 1 Ситуация в россии, проблемы и задачи информационно-аналитического обеспечения
- 2 Задачи и определение иао
- 3 Субъект информационно-аналитической работы
- 3.1 Противоречия в сфере организации иар
- 3.2 Организационные формы субъектов иар
- 3.3 Серединный путь?
- 3.4 Системы, управляемые потоком событий
- 4 Целеполагание в организационных системах
- 4.1 Базовые утверждения и определения
- 4.2 Модель иерархии целей
- 5 Методики социальных технологий а.А. Шияна
- 5.1 Теоретические основы социальных технологий
- 5.2 Человек (эксперт-аналитик) как двухкомпонентный абстрактный информационный автомат
- 6 Требования к организации информационно-аналитического обеспечения управленческой деятельности
- 7. Разработка организационной структуры аналитического подразделения
- Глава IV аналитические технологии
- 1 Противоречия в сфере развития средств автоматизации и информатизации иар
- 2 Технологический цикл иар
- 3 Первичная обработка имеющихся данных и анализ модельной информации
- 4 Поиск, отбор и экспресс-анализ данных
- 5 Работа с источниками текстовой информации
- 5.1 Неструктурированные текстовые данные
- 5.2 Структурированные текстовые данные
- 5.3 Взаимные преобразования различных типов данных
- 5.4 Анализ информативности источников
- 5.5 Проблема активной фильтрации сообщений
- 6 Аналитический режим потребления информации
- 6.1 Акт коммуникации и ошибки интерпретации
- 6.2 Управление элементами модели мира
- 6.3 Режимы восприятия информации
- 7 Атрибуция сообщений
- 8 Выявление неполноты, противоречивости и недостоверности информации
- 8.1 Логико-лингвистические средства анализа достоверности
- 8.2 Нетекстовые модели как инструмент верификации данных
- 9 Средства автоматизации иар
- 9.1 Средства сбора информации
- 9.2 Средства хранения данных
- 9.3 Экспертные системы
- 9.4 Системы искусственного интеллекта и интеллектуального анализа данных
- 9.5 Средства структурирования и визуализации данных. Электронные помощники аналитика
- 9.6 Системы гибридного интеллекта
- 9.7 Средства снижения размерности массива измерений
- 9.8 Инструментальные средства представления и доведения результатов иар
- Глава V аналитика как взвешенный подход к разработке и оцениванию управленческих решений
- 1 Проблема принятия решений
- 2 Разработка и анализ управленческих решений
- 2.1 Образование, карьера и лицо, принимающее решение
- 2.2 Концептуализация проблемы
- 2.3 Оценивание эффективности
- 2.4 Технологии прогнозирования
- 3 Методика выявления неформальных управляющих структур (центров сил) в регионах россии
- 3.1 Проблемы и противоречия в регионах россии как следствие борьбы центров сил
- 3.2 Введение в концептуальную систему
- 3.3 Методики проведения исследований
- 3.4 Экспертная система социально-экономического мониторинга, основанная на концепции центров сил
- 3.5 Показатели и алгоритмы выявления центров сил
- Заключение
- Список литературы
- Вариант организации процесса перспективного планирования на примере плана usaf-2025
- Примеры применения методик социальных технологий
- Пример аналитического разбора сообщения
- Глоссарий
- Список используемых сокращений