logo
PITS-1-2010new2

2.4.9. Средства поиска информации в Internet

Ресурсы всех перечисленных сервисов Сети могут быть предметом поиска, а многие из них имеют и свои собственные встроенные средства поиска [5-6, 38, 41-42].

Первая проблема любого пользователя Сети связана с тем, как найти необходимую информацию. Точнее, как эффективно искать, чтобы найти все сразу (лучше в одном месте), быстро, достаточно по объему и именно то, что было нужно. На сегодняшний день нет другого способа быстрого поиска данных, кроме поиска по ключевым словам. Поэтому поиск в Сети – вид искусства задавать ключевые слова и составлять фразы из них так, чтобы получать в ответ минимум информационного мусора. При этом следует точно знать следующие параметры поиска:

Архитектура средств поиска информации представлена на рис.1.23. Рассмотрим ее основные элементы.

Рис.1.23. Архитектура средств поиска информации

Специализированные информационные службы (СИС) являются самым мощным интегрированным средством поиска в Сети. СИС ведут учет наличия различных информационных источников в Сети и отслеживают динамику их обновления. Главное в организации таких СИС: наличие БД ссылок на информационные ресурсы Сети, а также механизма поиска в этих БД.

Поэтому самый простой способ начать поиск информации в Internet – обратиться к одной из СИС. СИС – поисковая система верхнего уровня, имеющая удобный тематический каталог и обеспечивающая направленный итерационный поиск информации. Например, это зарубежные СИС Lycos, Altavista, Oingo, Snap (рис.1.24), Yahoo, Google (рис.1.20), DirectHit, NothernLight.

Рис.1.24. Представление зарубежных СИС Lycos, Altavista, Oingo, Snap

СИС Oingo может проводить поиск даже с учетом нескольких значений смысла отдельного слова, например, queen – королева, шахматная фигура, кошка, насекомое, музыкальная группа. Среди отечественных СИС наиболее популярны: Rambler, Yandex (рис.1.25), Апорт, Улитка и другие [42].

Инструменты поиска. СИС опираются на различные программные инструменты поиска – поисковые машины (Search Engines) или движки, расположенные на одноименных серверах Сети [42]. Большинство инструментов поиска использует контекстный поиск по ключевым словам и специальный язык (формат) запросов – информационно-поисковый язык (ИПЯ). Для составления запросов такой ИПЯ может использовать:

Рис.1.25. Представление отечественных СИС Rambler и Yandex

Инструменты поиска делятся на общие и тематические. Инструменты имеют удобный интерфейс, обеспечивающий ввод и редактирование URL, закладки (адреса, занесенные в память), отображение процента передачи страницы в ОП и другое. Наиболее популярные инструменты поиска имеют, конечно, и свои специфичные особенности, например, оригинальные алгоритмы эффективного поиска, известные только разработчикам поисковой машины.

Виды поиска. Поисковые системы и инструменты поддерживают поиск двух видов: начальный (первичный) и детальный (конкретный) [41]. Начальный поиск является упрощенным и может проводиться на основе древовидного тематического каталога. Для начального поиска удобны системы Google, DirectHit, Snap, Oingo, SurfWax. Детальный поиск может оказаться гораздо сложнее, часто является итерационным и делится на два следующих способа.

Первым способом детального поиска является расширенный поиск, примеры средств организации которого показаны на рис.1.26.

Рис.1.26. Примеры организации расширенного поиска

Расширенный поиск поддерживает более сложный язык запросов, использующий такие возможности, как:

Вторым способом детального поиска является метапоиск редких документов – одновременный опрос нескольких поисковых систем с устранением одинаковых адресов и выдачей результатов на экран в удобном виде. Примеры: системы Ixquick, Infind, Savvysearch, Askjeeves (рис.1.27).

Рис.1.27. Примеры представления систем метапоиска

Недостатки метапоиска [41]:

Примеры вариантов итераций поиска: search engines, engine*, title:«search engine*». Парадокс состоит в том, что метапоиск хорош и как начальный, если тема является общей. Начальный метапоиск наиболее эффективен при ограничении числа задействованных в нем поисковых систем, дающих ответы на самые общие вопросы.

В рамках рассмотренных видов поиска некоторые СИС могут осуществлять дополнительные услуги. Например, Altavista обеспечивает перевод фрагментов текста до 150 символов и адресов на различные языки, а также удобный поиск объектов мультимедиа (рис.1.28).

Рис.1.28. Примеры представления средств поиска объектов мультимедиа

Роботы (robots) или боты, пауки (spiders) или бродяги (wanderers) – это программы, сканирующие ресурсы Сети. Сейчас широко используется более 100 роботов. Примеры: самый первый робот WWW Wanderer (1993 г.), WWW Worm (червь). Роботы выполняют 4 следующих функции.

      1. Ведение наборов страниц Web (WebSite). Это ведение многих БД с целью поддержки их актуальности:

  1. Создание зеркал. Зеркало – сосредоточенная в определенном месте копия набора страниц Web, разбросанных по всему миру. Теперь копия будет храниться, где удобно, чтоб сократить время доступа к часто используемому ресурсу. Но зеркала становятся все менее популярными, проигрывая появившимся позднее кэширующим серверам, которые хранят в своем буфере те страницы, к которым клиенты обращались чаще других. При этом получается, что Web по архитектуре становится все ближе к Usenet.

  2. Просмотр информационных ресурсов и поиск. Роботы готовят информационные массивы для индексирования с целью последующего использования в СИС и ИПС Web. Такая работа называется обнаружением источников (Resource Discovery). Почти все СИС используют таких роботов. Роботы также выполняют информационный поиск (Information Retrieval) в Сети для конкретного пользователя. Используются как универсальные средства поиска и коллекционирования информации, так и специализированные, например, сбор и индексирование информации по математике, матстатистике или иной теме.

4. Комбинированное использование:

Роботы снижают производительность Сети. Кроме того, желательно предупреждать администраторов серверов о работе робота, серверу опознавать робота, не мешать работе клиентов, грамотно программировать функции робота. В принципе, программа робота может обеспечивать выполнение оригинальных нежелательных или даже противозаконных (информационно-техническая разведка, промышленный или прямой шпионаж), а также вредоносных или разрушительных действий [5].

ИПС (сейчас просто поисковые системы или поисковики) появились на свет до зарождения Internet еще в 70-е годы. А появление ИПС в Internet стало признанием того, что ни иерархическая модель Gopher, ни ГТ-модель Web еще не решают проблему поиска информации в больших объемах разнородных документов. ИПС осуществляют поиск по ключевым словам в режиме запрос-ответ.

Первые поисковые системы: Wandex – уже несуществующий индекс, который создал бот Wanderer; Aliweb (1993 г.), работающая до сих пор; WebCrawler (1994 г.) – первая полнотекстовая с роботом [42].

Архитектура современных ИПС приведена на рис.1.29, где

Рис.1.29. Архитектура современных ИПС

В ИПС используются два варианта индексирования. В первом варианте для будущего поиска составляется поисковый образ (каждого) документа (ПОД) – список терминов, наиболее точно и полно его характеризующий. Индексирование заключается в составлении ПОД всех доступных документов. Но есть и другой вариант, когда индексирование рассматривается как составление инвертированного списка, где каждому термину ставится в соответствие список документов, в которых он встречается.

Основой для индексирования является словарь – фиксированная совокупность ключевых терминов. Словарь может быть:

Роботы могут выбирать ключевые термины для ПОД из следующих источников:

Но индексировать нужно далеко не все слова. Есть и списки запрещенных для индексирования слов (stop-words), а также общих слов (предлоги, союзы и т.п.). Несмотря на это, индексная БД ИПС Lycos составляет 4 Тбайта. Поэтому, чтобы не раздувать словари и индексы, применяются веса терминов. Документ обычно индексируется по 40-100 терминам, имеющим наибольший вес.

Интерфейс пользователя (рис.1.27) – организация страниц запросов/ответов. Запросы содержат меню, строку терминов, логические связки. Ответы содержат:

Вызывает интерес процедура коррекции запросов по релевантности – мере соответствия потребностям пользователя. Релевантность бывает:

Далее, на следующей итерации поиска запрос расширяется терминами из релевантных документов и так далее до нахождения искомых документов.

В последнее время завоёвывает всё большую популярность практика применения методов кластерного анализа и метапоиска. Из международных машин такого плана наибольшую известность получила «Clusty» компании Vivísimo. В 2005 году в России при поддержке МГУ запущен поисковик Nigma, поддерживающий автоматическую кластеризацию. В 2006 году открылась российская мета-машина Quintura, предлагающая визуальную кластеризацию в виде облака ключевых слов. Nigma тоже экспериментировала с визуальной кластеризацией [42].

Виртуальные библиотеки (ВБ) можно рассматривать как еще один инструмент поиска. ВБ появились в Web раньше ИПС. ВБ содержат не информационные ресурсы Сети, а только их классификацию в виде списка ссылок. ВБ по сути похожа на каталог обычной библиотеки, но по форме отличается. Выделяют два вида информационных структур ВБ:

Будущее развитие ВБ видится очень интересным: