55. Методы поиска информации в Интернет
Для более успешного поиска информации в Интернет необходимо использовать различные методы и способы поиска.
Основные методы поиска информации в Интернете, которые, в зависимости от целей и задач ищущего, используются по отдельности или в комбинации друг с другом:
Непосредственный поиск с использованием гипертекстовых ссылок.
Использование поисковых машин.
Поиск с применением специальных средств.
Анализ новых ресурсов.
Непосредственный поиск с использованием гипертекстовых ссылок
Поскольку все сайты в пространстве WWW фактически оказываются связанными между собой, поиск информации может быть произведен путем последовательного просмотра связанных страниц с помощью броузера.
Хотя этот полностью ручной метод поиска выглядит полным анахронизмом в Сети, содержащей несколько десятков миллионов узлов, "ручной" просмотр Web-страниц часто оказывается единственно возможным на заключительных этапах информационного поиска, когда механическое "копание" уступает место более глубокому анализу. Использование каталогов, классифицированных и тематических списков и всевозможных небольших справочников также относится к этому виду поиска.
Анализ новых ресурсов.
Поиск по новообразованным ресурсам может оказаться необходимым при проведении повторных циклов поиска, поиска наиболее свежей информации или для анализа тенденций развития объекта исследования в динамике.
Другой возможной причиной может явиться то, что большинство поисковых машин обновляет свои индексы со значительной задержкой, вызванной гигантскими объемами обрабатываемых данных, и эта задержка обычно тем больше, чем менее популярна интересующая вас тема. Это соображение может оказаться весьма существенным при проведении поиска в узкоспециальной предметной области.
Поиск с применением специальных средств
Этот полностью автоматизированный метод может оказаться весьма эффективным для проведения первичного поиска.
Одна из технологий этого метода основана на применении специализированных программ-спайдеров, которые в автоматическом режиме просматривают Web-страницы, отыскивая на них искомую информацию. Фактически это автоматизированный вариант просмотра с помощью гипертекстовых ссылок, описанный выше (поисковые машины для построения своих индексных таблиц используют похожие методы). Нет нужды говорить, что результаты автоматического поиска обязательно требуют последующей обработки.
Применение данного метода целесообразно, если использование поисковых машин не может дать необходимых результатов (например, в силу нестандартности запроса, который не может быть адекватно задан существующими средствами поисковых машин). В ряде случаев этот метод может быть очень эффективен.
Выбор между использованием спайдера или поисковых серверов являет собой вариант классического выбора между применением универсальных или специализированных средств.
Т.о., автономные поисковые программы-роботы, то есть специализированные программы, устанавливаемые на компьютер пользователя и облегчающие ему поиск и иногда получение информации из сети, относятся ко второму типу поисковиков.
Поиск информации с помощью таких программ имеет одно неоспоримое преимущество: имеется возможность выбора ПС и настроек параметров поиска в полном соответствии с запросами пользователя.
Иногда встречаются определения “глубокий веб” или “невидимый веб”. Они означают колоссальный массив информации, недоступный для глобальных поисковых машин.
Даже самый полный и всесторонний, как считается, механизм поиска, на Google, индексирует всего лишь 34% страниц имеющихся в Сети. Данные по другим роботам еще хуже: AltаVista имеет представление примерно о 28% содержимого сети, Northern Light - о 20%, Excite - о 14%, Infoseek - о 10%, Lycos - лишь о 3%. (Использованы материалы исследования за 19 августа 2002 года)
При этом, как выясняется, более полные поисковые системы менее надежны, поскольку чаще ссылаются на уже несуществующие или измененные страницы.
Почему и какая именно информация сегодня для обычных методов не доступна?
Это информация, хранящаяся в базах данных. Информация на сайтах, где содержание страниц быстро меняется, как, например, на сайтах СМИ, где значительная часть информации просто не успевает индексироваться роботами-поисковиками и уходит в базы данных глубокого залегания, не просматриваемые поисковыми механизмами.
Временной фактор играет важную роль. Роботы поисковых систем индексируют лишь некоторые страницы наиболее популярных сайтов, к тому же довольно редко - робот может не обращаться к странице месяцами, тогда как информация на многих из них обновляется ежедневно. Некоторые поисковые системы индексируют новостные сайты, но фактически снимают поверхностный слой информации, доступный на момент индексации.
Кроме того, содержимое многих файлов по тем или иным причинам закодировано в специальных форматах, осилить которые обычные машины не могут. Требуется специально настроенное программное обеспечение.
В настоящее время предпринимаются попытки создать программные продукты – программы-спайдеры (от англ. “spider” – паук), ориентированные на поиск в “невидимой” части Всемирной Паутины непосредственно с компьютера пользователя. Среди недавних разработок заслуживает внимание Copernic 2001.
Copernic 2001 представляет из себя классический пример программы-робота. Эта программа проста в обращении и одновременно очень мощная по своим возможностям. Робот просматривает единовременно множество поисковых серверов, разбитых на группы (что позволяет предварительно ограничить область поиска), причем повторяющиеся ссылки удаляются. Результаты поиска выводятся в окне программы и могут сохраняться в виде html-файлов. Copernic умеет также сохранять найденные документы на диске для их последующего просмотра и производить поиск среди них.
Как и другие аналогичные разработки, эти программные пакеты принимают поисковый запрос, посылают его на какое-то число сайтов с базами данных, осуществляют при помощи действующих там механизмов поиск и возвращают пользователю результат в консолидированной форме. Преимуществом названного продукта является его способность осуществлять поиск, причем одномоментно, в разных тематических (новости, здоровье) и функциональных (книги, работа) зонах, а также ряд дополнительных функций, например, умение систематизировать и суммировать найденную информацию, которая обычно поступает к пользователю в виде разрозненных фрагментов. Другая отличительная особенность заключается в том, что пользователь может запрограммировать поиск, который будет осуществляться в автоматическом режиме в заданные промежутки времени. Эти характеристики особенно важны для мониторинга конкурентов на рынке.
Но у этой программы есть несколько существенных недостатков. Первое, нельзя подключить свои службы поиска, и нельзя производить поиск на русских серверах. Но запросы на русском языке обработаются корректно и ссылки будут выданы. Но количество их явно не соответствует реальной картине.
Ведущая американская компания в области деловой разведки Fuld & Co завершила анализ и составление списка 170 компьютерных программ предназначенных для поиска и анализа необходимой информации в Сети.
Анализ рынка таких программ (для 2000 года) не дает ясной картины положения дел в этой области. Во-первых, отмечается рост количества фирм, предлагающих программные продукты под названием "программы деловой разведки". В большинстве случаев эти программы едва ли способны обеспечить хранилища данных и качественный анализ.
Пакеты программ деловой разведки, способные идентифицировать и анализировать информацию, встречаются намного реже. Компания Fuld & Co. выделяет следующие, лучшие, по мнению компании, программные пакеты:
Cipher Systems' Knowledge. Works Version 5
Docere Intelligence's Market Signal Analyser
Strategy Software's Strategy! Version 2.5
Wincite Systems' Wincite Version 6.1
WisdonBuilder's Wisdom Builder 2.3.0
Megaputer Intelligence's TextAnalisys 2.0
Intelliseek's Corporate Intelligence Service
Vigil technologies' E-Sense
Plumtree Software's Plumtree Corporate Portal version 3.0
Powerize's Powerize.com.Web Site
Knowledge Computing's Competitive Intelligence Spider Version 1.2.1
C4-U's C-4-U Scout
Из приведенного выше перечня каждый программный продукт отлично приспособлен для работы в какой-то одной области, например, в сборе информации, или в ее анализе. Но в других областях они не работает. В этом смысле продукт Wisdom Builder отличается сравнительной универсальностью. Все эти программные продукты разработаны зарубежными компаниями и не используются для деловой разведки в российских компаниях.
Но все большее применение в крупных российских компаниях получают распространение автоматизированные системы поиска и аналитической обработки информации, такие, например, как “Galaktika-Zoom”.
Использование этой программы обеспечивает высшее руководство предприятий важной и актуальной для принятия решения аналитической информацией, выделенной из массива текстовых данных.
Система Galaktika-Zoom предназначена для работы с крупными информационными (правда, пока только текстовыми) массивами и ориентирована на пользователей из числа сотрудников аналитических служб и руководителей предприятий.
Система дает наибольший эффект при обработке массивов текстовых документов общим объемом не менее 10 Мбайт. Верхние границы объемов информации, которые можно анализировать с помощью новой информационно-поисковой системы, достигают сотен гигабайтов. Поиск осуществляется по ключевым словам с учетом морфологии русского языка, в дальнейшем предполагается добавить в систему и учет семантических связей. Время поиска на больших массивах составляет от 20-30 минут до нескольких часов. Чтобы сделать анализ текстов более простым и удобным, система производит сначала прямой поиск - находит множество документов, удовлетворяющих параметрам запроса, а затем обратный - по созданной выборке составляет список тем, к которым относятся данные документы (это достигается путем анализа частоты совместного употребления различных словосочетаний внутри документов). Таким образом, система не только находит документы, но и группирует их по темам, позволяя отыскивать информацию, наиболее точно соответствующую текущему контексту работы. Кроме того, информационно-поисковая система дает возможность анализировать динамику тем в различные периоды времени, к которым относятся документы. Например, так можно отследить, как меняются связанные с тем или иным предметом ассоциации, наблюдавшиеся год, два, три и более назад.
Первыми участниками тестирования продукта, стали российские теле- и радиокомпании — “НТВ”, “Вести”, “Радио России” и др., вернее, их аналитические службы.. Для аналитиков из СМИ очень важны возможности отслеживания различных событий и тенденций во времени. Например, им интересно, как меняются имиджевые кампании известных политических и общественных деятелей, какие любопытные события происходили в жизни этих людей много лет назад, когда из-за малой значимости этих фигур подобным фактам не придавалось никакого значения, и т. д.
Эта система наверняка окажется полезной гораздо более широкому кругу пользователей. В частности, аналитикам банков и крупных коммерческих предприятий она может помочь в анализе и проверке возможностей своих клиентов и партнеров, рекламным и маркетинговым агентствам — в изучении рынка и поиске новых идей, политологам и силовым структурам — в изучении деятельности различных персон и организаций и пр. Правда, есть одна важная деталь: чтобы системе было с чем работать, нужна информация, точнее, много информации. Чтобы она поступала вовремя и в достаточных количествах, пользователям придется позаботиться о заключении контрактов с поставщиками информации.
Достоинства системы Galaktika-Zoom: высокое быстродействие; полный морфологический анализ информации; полнотекстовый поиск, включая возможность работы со "стоп-словами"; масштабируемость аппаратных средств (поддержка многопроцессорной обработки и кластерных систем); разнообразие архитектур: "мобильные" варианты (CD, DVD), "клиент-сервер", "интернет-сервер".
Использование системы Galaktika-Zoom обеспечивает высшее руководство предприятий важной и актуальной для принятия решения аналитической информацией, выделенной из массива текстовых данных.
Использование поисковых машин
Сегодня этот метод является одним из основных и фактически единственным при проведении предварительного поиска. Результатом последнего может являться список ресурсов Сети, подлежащих детальному рассмотрению. Как правило, применение поисковых машин основано на использовании ключевых слов, которые передаются поисковым серверам в качестве аргументов поиска: что искать. Если делать все правильно, то формирование списка ключевых слов требует предварительной работы по составлению тезауруса.
- Локальные сети эвм. Способы связи эвм между собой.
- Сети эвм. Классификация сетей.
- Локальные сети эвм. Физические стандарты каналов связи.
- 4. Локальные сети эвм. Понятие о топологии сети.
- 5. Локальные сети эвм. Шинная топологии, достоинства и недостатки.
- 6. Локальные сети эвм. Звездообразная и кольцевая топологии, достоинства и недостатки.
- 1 Звезда
- 2 Кольцо
- 3 Общая шина
- 4 Иерархическая топология
- 7. Windows xp - современное средство построения одноранговых лвс
- Использование Мастера настройки сети
- Конфигурирование сети вручную
- 8. Основные протоколы логического уровня в современных сетевых ос
- 9. Кабельные системы сетей эвм. Коаксиальные кабели и витая пара.
- Кабели на основе неэкранированной витой пары
- Кабели на основе экранированной витой пары
- Коаксиальные кабели
- Вопрос №12 Программные средства лвс. Сетевые операционные системы Сетевые операционные системы Структура сетевой операционной системы
- Одноранговые сетевые ос и ос с выделенными серверами
- Ос для рабочих групп и ос для сетей масштаба предприятия
- Обзор сетевых операционных систем
- Протокол sap и Novell Directory Services
- 14. Сетевая ос windows 2000/nt. Структура, протоколы, основные характеристики.
- Билет 15. Классификация современных сетей передачи и обработки информации. Классификация вычислительных сетей
- Конфигурация вычислительной сети и методы доступа Топология вычислительной сети
- Виды топологий
- Общая шина
- Классификация сетей по территориальному признаку. Примеры сетей.
- Сеть internet - объединение общемировых сетей передачи информации.
- 18. Internet - принципы построения.
- 19. Протокол tcp/ip основа построения internet.
- 20. Логическая структура лвс. Одно и двух ранговые лвс.
- 22. Логическая структура лвс. Файловые серверы и серверы приложений.
- 23. Протоколы http и ftp - основные средства нижнего уровня в www.
- Служба организации электронной почты (источник - конспект лекций)
- 26. Понятие сети, ресурсы, их использование
- Понятие сети
- Ресурсы
- Ресурсы, их использование
- 27. Файл-серверная и клиент-серверная технологии
- Файл-серверная технология
- Технология клиент-сервер
- Недостатки Клиент-серверной архитектуры
- 28. Программные средства сетевого доступа к данным (sql-серверы и т.П.)
- 29. Сетевая архитектура. Физическая и логическая топология
- Виды топологий
- Сетевые карты
- Вопрос № 31 Сетевое оборудование. Коммутаторы, концентраторы, маршрутизаторы, мосты и т.П.
- 32. Модель взаимодействия открытых систем (osi)
- 33. Сетевые протоколы
- 34 Протоколы tcp/ip.
- Основы tcp/ip
- Краткое описание протоколов семейства tcp/ip с расшифровкой аббревиатур
- Архитектура tcp/ip
- Уровни сетей и протоколы tcp/ip
- Краткое заключение
- 35: Маршрутизация tcp/ip, локальные и глобальные ip-адреса Типы адресов: физический (mac-адрес), сетевой (ip-адрес) и символьный (dns-имя)
- Отображение физических адресов на ip-адреса: протоколы arp и rarp
- 36. Понятие сокета
- Обзор сокетов
- 38. Сетевое программное обеспечение лвс и компоненты лвс
- Основные компоненты
- Рабочие станции
- Сетевые адаптеры
- Файловые серверы
- Сетевые операционные системы
- Сетевое программное обеспечение
- 39. Сеть из двух компьютеров
- 40. Сети Windows nt/2000. Понятие сервера и рабочей станции.
- 41. Базовый состав сетевого по Windows.
- 41.1 Состав сетевого клиентского по
- 41.2 Краткое описание утилит
- 41.3 Утилиты для диагностики tcp/ip соединений
- 43. Доменная модель.
- 44. Учетные записи и группы пользователей
- 45. Функции администратора Windows nt
- 46. Защита сетевых ресурсов с помощью прав доступа.
- 47. Понятие файловой системы.
- 48. Защита ресурсов с помощью разрешений ntfs.
- 49. Технология ethernet
- 50. Понятие о службах dns, wins, dhcp.
- 51. Пример сети небольшого предприятия.
- 52. Технология token ring
- Параметры и настройка подключения к Интернет
- 55. Методы поиска информации в Интернет
- Структура поисковых сервисов Интернета. Поисковые машины и каталоги
- Метапоисковые системы
- Типы файлов, используемых в Интернет
- Почта. РорЗ/smtp и http доступ к почте
- Html и создание сайтов