logo search
Otvety_na_bilety_po_vase_1

55. Методы поиска информации в Интернет

Для более успешного поиска информации в Интернет необходимо использовать различные методы и способы поиска.

Основные методы поиска информации в Интернете, которые, в зависимости от целей и задач ищущего, используются по отдельности или в комбинации друг с другом:

Непосредственный поиск с использованием гипертекстовых ссылок

Поскольку все сайты в пространстве WWW фактически оказываются связанными между собой, поиск информации может быть произведен путем последовательного просмотра связанных страниц с помощью броузера.

Хотя этот полностью ручной метод поиска выглядит полным анахронизмом в Сети, содержащей несколько десятков миллионов узлов, "ручной" просмотр Web-страниц часто оказывается единственно возможным на заключительных этапах информационного поиска, когда механическое "копание" уступает место более глубокому анализу. Использование каталогов, классифицированных и тематических списков и всевозможных небольших справочников также относится к этому виду поиска.

Анализ новых ресурсов.

Поиск по новообразованным ресурсам может оказаться необходимым при проведении повторных циклов поиска, поиска наиболее свежей информации или для анализа тенденций развития объекта исследования в динамике.

Другой возможной причиной может явиться то, что большинство поисковых машин обновляет свои индексы со значительной задержкой, вызванной гигантскими объемами обрабатываемых данных, и эта задержка обычно тем больше, чем менее популярна интересующая вас тема. Это соображение может оказаться весьма существенным при проведении поиска в узкоспециальной предметной области.

Поиск с применением специальных средств

Этот полностью автоматизированный метод может оказаться весьма эффективным для проведения первичного поиска.

Одна из технологий этого метода основана на применении специализированных программ-спайдеров, которые в автоматическом режиме просматривают Web-страницы, отыскивая на них искомую информацию. Фактически это автоматизированный вариант просмотра с помощью гипертекстовых ссылок, описанный выше (поисковые машины для построения своих индексных таблиц используют похожие методы). Нет нужды говорить, что результаты автоматического поиска обязательно требуют последующей обработки.

Применение данного метода целесообразно, если использование поисковых машин не может дать необходимых результатов (например, в силу нестандартности запроса, который не может быть адекватно задан существующими средствами поисковых машин). В ряде случаев этот метод может быть очень эффективен.

Выбор между использованием спайдера или поисковых серверов являет собой вариант классического выбора между применением универсальных или специализированных средств.

Т.о., автономные поисковые программы-роботы, то есть специализированные программы, устанавливаемые на компьютер пользователя и облегчающие ему поиск и иногда получение информации из сети, относятся ко второму типу поисковиков.

Поиск информации с помощью таких программ имеет одно неоспоримое преимущество: имеется возможность выбора ПС и настроек параметров поиска в полном соответствии с запросами пользователя.

Иногда встречаются определения “глубокий веб” или “невидимый веб”. Они означают колоссальный массив информации, недоступный для глобальных поисковых машин.

Даже самый полный и всесторонний, как считается, механизм поиска, на Google, индексирует всего лишь 34% страниц имеющихся в Сети. Данные по другим роботам еще хуже: AltаVista имеет представление примерно о 28% содержимого сети, Northern Light - о 20%, Excite - о 14%, Infoseek - о 10%, Lycos - лишь о 3%. (Использованы материалы исследования за 19 августа 2002 года)

При этом, как выясняется, более полные поисковые системы менее надежны, поскольку чаще ссылаются на уже несуществующие или измененные страницы.

Почему и какая именно информация сегодня для обычных методов не доступна?

Это информация, хранящаяся в базах данных. Информация на сайтах, где содержание страниц быстро меняется, как, например, на сайтах СМИ, где значительная часть информации просто не успевает индексироваться роботами-поисковиками и уходит в базы данных глубокого залегания, не просматриваемые поисковыми механизмами.

Временной фактор играет важную роль. Роботы поисковых систем индексируют лишь некоторые страницы наиболее популярных сайтов, к тому же довольно редко - робот может не обращаться к странице месяцами, тогда как информация на многих из них обновляется ежедневно. Некоторые поисковые системы индексируют новостные сайты, но фактически снимают поверхностный слой информации, доступный на момент индексации.

Кроме того, содержимое многих файлов по тем или иным причинам закодировано в специальных форматах, осилить которые обычные машины не могут. Требуется специально настроенное программное обеспечение.

В настоящее время предпринимаются попытки создать программные продукты – программы-спайдеры (от англ. “spider” – паук), ориентированные на поиск в “невидимой” части Всемирной Паутины непосредственно с компьютера пользователя. Среди недавних разработок заслуживает внимание Copernic 2001.

Copernic 2001 представляет из себя классический пример программы-робота. Эта программа проста в обращении и одновременно очень мощная по своим возможностям. Робот просматривает единовременно множество поисковых серверов, разбитых на группы (что позволяет предварительно ограничить область поиска), причем повторяющиеся ссылки удаляются. Результаты поиска выводятся в окне программы и могут сохраняться в виде html-файлов. Copernic умеет также сохранять найденные документы на диске для их последующего просмотра и производить поиск среди них.

Как и другие аналогичные разработки, эти программные пакеты принимают поисковый запрос, посылают его на какое-то число сайтов с базами данных, осуществляют при помощи действующих там механизмов поиск и возвращают пользователю результат в консолидированной форме. Преимуществом названного продукта является его способность осуществлять поиск, причем одномоментно, в разных тематических (новости, здоровье) и функциональных (книги, работа) зонах, а также ряд дополнительных функций, например, умение систематизировать и суммировать найденную информацию, которая обычно поступает к пользователю в виде разрозненных фрагментов. Другая отличительная особенность заключается в том, что пользователь может запрограммировать поиск, который будет осуществляться в автоматическом режиме в заданные промежутки времени. Эти характеристики особенно важны для мониторинга конкурентов на рынке.

Но у этой программы есть несколько существенных недостатков. Первое, нельзя подключить свои службы поиска, и нельзя производить поиск на русских серверах. Но запросы на русском языке обработаются корректно и ссылки будут выданы. Но количество их явно не соответствует реальной картине.

Ведущая американская компания в области деловой разведки Fuld & Co завершила анализ и составление списка 170 компьютерных программ предназначенных для поиска и анализа необходимой информации в Сети.

Анализ рынка таких программ (для 2000 года) не дает ясной картины положения дел в этой области. Во-первых, отмечается рост количества фирм, предлагающих программные продукты под названием "программы деловой разведки". В большинстве случаев эти программы едва ли способны обеспечить хранилища данных и качественный анализ.

Пакеты программ деловой разведки, способные идентифицировать и анализировать информацию, встречаются намного реже. Компания Fuld & Co. выделяет следующие, лучшие, по мнению компании, программные пакеты:

Cipher Systems' Knowledge. Works Version 5

Docere Intelligence's Market Signal Analyser

Strategy Software's Strategy! Version 2.5

Wincite Systems' Wincite Version 6.1

WisdonBuilder's Wisdom Builder 2.3.0

Megaputer Intelligence's TextAnalisys 2.0

Intelliseek's Corporate Intelligence Service

Vigil technologies' E-Sense

Plumtree Software's Plumtree Corporate Portal version 3.0

Powerize's Powerize.com.Web Site

Knowledge Computing's Competitive Intelligence Spider Version 1.2.1

C4-U's C-4-U Scout

Из приведенного выше перечня каждый программный продукт отлично приспособлен для работы в какой-то одной области, например, в сборе информации, или в ее анализе. Но в других областях они не работает. В этом смысле продукт Wisdom Builder отличается сравнительной универсальностью. Все эти программные продукты разработаны зарубежными компаниями и не используются для деловой разведки в российских компаниях.

Но все большее применение в крупных российских компаниях получают распространение автоматизированные системы поиска и аналитической обработки информации, такие, например, как “Galaktika-Zoom”.

Использование этой программы обеспечивает высшее руководство предприятий важной и актуальной для принятия решения аналитической информацией, выделенной из массива текстовых данных.

Система Galaktika-Zoom предназначена для работы с крупными информационными (правда, пока только текстовыми) массивами и ориентирована на пользователей из числа сотрудников аналитических служб и руководителей предприятий.

Система дает наибольший эффект при обработке массивов текстовых документов общим объемом не менее 10 Мбайт. Верхние границы объемов информации, которые можно анализировать с помощью новой информационно-поисковой системы, достигают сотен гигабайтов. Поиск осуществляется по ключевым словам с учетом морфологии русского языка, в дальнейшем предполагается добавить в систему и учет семантических связей. Время поиска на больших массивах составляет от 20-30 минут до нескольких часов. Чтобы сделать анализ текстов более простым и удобным, система производит сначала прямой поиск - находит множество документов, удовлетворяющих параметрам запроса, а затем обратный - по созданной выборке составляет список тем, к которым относятся данные документы (это достигается путем анализа частоты совместного употребления различных словосочетаний внутри документов). Таким образом, система не только находит документы, но и группирует их по темам, позволяя отыскивать информацию, наиболее точно соответствующую текущему контексту работы. Кроме того, информационно-поисковая система дает возможность анализировать динамику тем в различные периоды времени, к которым относятся документы. Например, так можно отследить, как меняются связанные с тем или иным предметом ассоциации, наблюдавшиеся год, два, три и более назад.

Первыми участниками тестирования продукта, стали российские теле- и радиокомпании — “НТВ”, “Вести”, “Радио России” и др., вернее, их аналитические службы.. Для аналитиков из СМИ очень важны возможности отслеживания различных событий и тенденций во времени. Например, им интересно, как меняются имиджевые кампании известных политических и общественных деятелей, какие любопытные события происходили в жизни этих людей много лет назад, когда из-за малой значимости этих фигур подобным фактам не придавалось никакого значения, и т. д.

Эта система наверняка окажется полезной гораздо более широкому кругу пользователей. В частности, аналитикам банков и крупных коммерческих предприятий она может помочь в анализе и проверке возможностей своих клиентов и партнеров, рекламным и маркетинговым агентствам — в изучении рынка и поиске новых идей, политологам и силовым структурам — в изучении деятельности различных персон и организаций и пр. Правда, есть одна важная деталь: чтобы системе было с чем работать, нужна информация, точнее, много информации. Чтобы она поступала вовремя и в достаточных количествах, пользователям придется позаботиться о заключении контрактов с поставщиками информации.

Достоинства системы Galaktika-Zoom: высокое быстродействие; полный морфологический анализ информации; полнотекстовый поиск, включая возможность работы со "стоп-словами"; масштабируемость аппаратных средств (поддержка многопроцессорной обработки и кластерных систем); разнообразие архитектур: "мобильные" варианты (CD, DVD), "клиент-сервер", "интернет-сервер".

Использование системы Galaktika-Zoom обеспечивает высшее руководство предприятий важной и актуальной для принятия решения аналитической информацией, выделенной из массива текстовых данных.

Использование поисковых машин

Сегодня этот метод является одним из основных и фактически единственным при проведении предварительного поиска. Результатом последнего может являться список ресурсов Сети, подлежащих детальному рассмотрению. Как правило, применение поисковых машин основано на использовании ключевых слов, которые передаются поисковым серверам в качестве аргументов поиска: что искать. Если делать все правильно, то формирование списка ключевых слов требует предварительной работы по составлению тезауруса.