PITS-1-2010new2

2.4.9. Средства поиска информации в Internet

Ресурсы всех перечисленных сервисов Сети могут быть предметом поиска, а многие из них имеют и свои собственные встроенные средства поиска [5-6, 38, 41-42].

Первая проблема любого пользователя Сети связана с тем, как найти необходимую информацию. Точнее, как эффективно искать, чтобы найти все сразу (лучше в одном месте), быстро, достаточно по объему и именно то, что было нужно. На сегодняшний день нет другого способа быстрого поиска данных, кроме поиска по ключевым словам. Поэтому поиск в Сети – вид искусства задавать ключевые слова и составлять фразы из них так, чтобы получать в ответ минимум информационного мусора. При этом следует точно знать следующие параметры поиска:

объект поиска: ПО, ПС, статья, адрес Web-страницы, адрес ЭП, файл (текстовый, графический, аудио, видео) и т.п.;
страна и язык;
используемые сервисы и ресурсы: Web, Gopher, FTP и другие;
стратегия поиска: случайная (random), «колесо рулетки» (roulette), свободное «скольжение» (surf), по именам университетов, компаний и организаций, по рубрикам, по странам, по последним изменениям, опрос поисковых (справочных) серверов (search engines), опрос специализированных серверов.

Архитектура средств поиска информации представлена на рис.1.23. Рассмотрим ее основные элементы.

Рис.1.23. Архитектура средств поиска информации

Специализированные информационные службы (СИС) являются самым мощным интегрированным средством поиска в Сети. СИС ведут учет наличия различных информационных источников в Сети и отслеживают динамику их обновления. Главное в организации таких СИС: наличие БД ссылок на информационные ресурсы Сети, а также механизма поиска в этих БД.

Поэтому самый простой способ начать поиск информации в Internet – обратиться к одной из СИС. СИС – поисковая система верхнего уровня, имеющая удобный тематический каталог и обеспечивающая направленный итерационный поиск информации. Например, это зарубежные СИС Lycos, Altavista, Oingo, Snap (рис.1.24), Yahoo, Google (рис.1.20), DirectHit, NothernLight.

Рис.1.24. Представление зарубежных СИС Lycos, Altavista, Oingo, Snap

СИС Oingo может проводить поиск даже с учетом нескольких значений смысла отдельного слова, например, queen – королева, шахматная фигура, кошка, насекомое, музыкальная группа. Среди отечественных СИС наиболее популярны: Rambler, Yandex (рис.1.25), Апорт, Улитка и другие [42].

Инструменты поиска. СИС опираются на различные программные инструменты поиска – поисковые машины (Search Engines) или движки, расположенные на одноименных серверах Сети [42]. Большинство инструментов поиска использует контекстный поиск по ключевым словам и специальный язык (формат) запросов – информационно-поисковый язык (ИПЯ). Для составления запросов такой ИПЯ может использовать:

Рис.1.25. Представление отечественных СИС Rambler и Yandex

ключевые слова;
логические условия (связки между словами) – операторы AND и OR или соответствующие знаки (+, &) и (|,V);
указания границ поиска с помощью префиксов, задающие, где искать:

в заголовках (используется префикс title:);
в адресах (префикс url);
по всему тексту;

знаки:

+/- (например, +слово/-слово) – задают обязательное присутствие или отсутствие слова в искомом документе;
«» (например, «текст») – задают обязательное присутствие данной цитаты в искомом документе.

Инструменты поиска делятся на общие и тематические. Инструменты имеют удобный интерфейс, обеспечивающий ввод и редактирование URL, закладки (адреса, занесенные в память), отображение процента передачи страницы в ОП и другое. Наиболее популярные инструменты поиска имеют, конечно, и свои специфичные особенности, например, оригинальные алгоритмы эффективного поиска, известные только разработчикам поисковой машины.

Виды поиска. Поисковые системы и инструменты поддерживают поиск двух видов: начальный (первичный) и детальный (конкретный) [41]. Начальный поиск является упрощенным и может проводиться на основе древовидного тематического каталога. Для начального поиска удобны системы Google, DirectHit, Snap, Oingo, SurfWax. Детальный поиск может оказаться гораздо сложнее, часто является итерационным и делится на два следующих способа.

Первым способом детального поиска является расширенный поиск, примеры средств организации которого показаны на рис.1.26.

Рис.1.26. Примеры организации расширенного поиска

Расширенный поиск поддерживает более сложный язык запросов, использующий такие возможности, как:

конструкция вида ‘фрагмент*’, где фрагмент – подставляемая важная (искомая) часть слова, * – остальная несущественная часть;
знак & вместо + ;
знак ~ или оператор NEAR (near – недалеко, около) – связывает слова, между которыми в искомом тексте может быть до 9 других слов;
знак ! или оператор AND NOT – связка И-НЕ;
конструкция AND-OR со скобками вида: (слово AND слово) OR (слово AND слово);
расширенный набор префиксов:

domain: – ограничить поиск доменом верхнего уровня;
host: – ограничить поиск одним компьютером или несколькими;
image: – ограничить поиск рисунками с данным именем, например, image:visa.gif (это логотип платежной системы Visa);
link: – поиск страниц, ссылающихся на данную;
text: – поиска слова, встречающегося в тексте, видном на странице;
title: – поиск только в заголовках;
url: – поиск документа, адрес которого содержит указанное слово;

в полях From (от) и To (до) можно задать интервал времени, когда создан искомый документ.

Вторым способом детального поиска является метапоиск редких документов – одновременный опрос нескольких поисковых систем с устранением одинаковых адресов и выдачей результатов на экран в удобном виде. Примеры: системы Ixquick, Infind, Savvysearch, Askjeeves (рис.1.27).

Рис.1.27. Примеры представления систем метапоиска

Недостатки метапоиска [41]:

используется лишь малая часть адресов (в лучшем случае несколько десятков), выделенных отдельной поисковой системой. На большее просто нет времени. В результате часть интересных документов может быть пропущена;
опрашивать одновременно несколько поисковых систем можно только с помощью языка запросов, понятного им всем. А у каждой из них он свой, например, оператор NEAR в СИС Lycos задает промежуток до 25 слов вместо обычных 9.

Примеры вариантов итераций поиска: search engines, engine*, title:«search engine*». Парадокс состоит в том, что метапоиск хорош и как начальный, если тема является общей. Начальный метапоиск наиболее эффективен при ограничении числа задействованных в нем поисковых систем, дающих ответы на самые общие вопросы.

В рамках рассмотренных видов поиска некоторые СИС могут осуществлять дополнительные услуги. Например, Altavista обеспечивает перевод фрагментов текста до 150 символов и адресов на различные языки, а также удобный поиск объектов мультимедиа (рис.1.28).

Рис.1.28. Примеры представления средств поиска объектов мультимедиа

Роботы (robots) или боты, пауки (spiders) или бродяги (wanderers) – это программы, сканирующие ресурсы Сети. Сейчас широко используется более 100 роботов. Примеры: самый первый робот WWW Wanderer (1993 г.), WWW Worm (червь). Роботы выполняют 4 следующих функции.

Ведение наборов страниц Web (WebSite). Это ведение многих БД с целью поддержки их актуальности:

выявление неверных и неактуальных ссылок (на уже удаленные или перемещенные страницы) и сообщение о них администратору;
верификация HTML-документов, которая бывает:

удаленная, когда проверяются текст и ГТ-ссылки;
локальная, когда проверяется целостность локальной БД сервера.

Создание зеркал. Зеркало – сосредоточенная в определенном месте копия набора страниц Web, разбросанных по всему миру. Теперь копия будет храниться, где удобно, чтоб сократить время доступа к часто используемому ресурсу. Но зеркала становятся все менее популярными, проигрывая появившимся позднее кэширующим серверам, которые хранят в своем буфере те страницы, к которым клиенты обращались чаще других. При этом получается, что Web по архитектуре становится все ближе к Usenet.
Просмотр информационных ресурсов и поиск. Роботы готовят информационные массивы для индексирования с целью последующего использования в СИС и ИПС Web. Такая работа называется обнаружением источников (Resource Discovery). Почти все СИС используют таких роботов. Роботы также выполняют информационный поиск (Information Retrieval) в Сети для конкретного пользователя. Используются как универсальные средства поиска и коллекционирования информации, так и специализированные, например, сбор и индексирование информации по математике, матстатистике или иной теме.

4. Комбинированное использование:

автоматическое реферирование и составление обзоров. Рефераты по 10 Кбайт. Например, робот Memex;
учет скорости роста Web. Даже самый первый робот Wanderer подсчитывал число HTTP-серверов. Сейчас что-то считают все роботы.

Роботы снижают производительность Сети. Кроме того, желательно предупреждать администраторов серверов о работе робота, серверу опознавать робота, не мешать работе клиентов, грамотно программировать функции робота. В принципе, программа робота может обеспечивать выполнение оригинальных нежелательных или даже противозаконных (информационно-техническая разведка, промышленный или прямой шпионаж), а также вредоносных или разрушительных действий [5].

ИПС (сейчас просто поисковые системы или поисковики) появились на свет до зарождения Internet еще в 70-е годы. А появление ИПС в Internet стало признанием того, что ни иерархическая модель Gopher, ни ГТ-модель Web еще не решают проблему поиска информации в больших объемах разнородных документов. ИПС осуществляют поиск по ключевым словам в режиме запрос-ответ.

Первые поисковые системы: Wandex – уже несуществующий индекс, который создал бот Wanderer; Aliweb (1993 г.), работающая до сих пор; WebCrawler (1994 г.) – первая полнотекстовая с роботом [42].

Архитектура современных ИПС приведена на рис.1.29, где

браузер (1) выступает в роли клиента;
интерфейс пользователя (2) задает способ общения пользователя с системой формирования страниц запросов и просмотра результатов поиска;
поисковая машина (3) транслирует ИПЯ-запрос в формальный запрос ИПС, ищет ссылки на информационные ресурсы Сети, выдает результаты этого поиска пользователю;
сайты Web (4) – серверы, достижимые для данной ИПС;
сохраненные запросы (5). Отладка ИПЯ-запросов проходит долго. Поэтому важно их запоминать, когда ИПС дала хорошие ответы;
робот-индексировщик (6) сканирует Сеть и поддерживает индексную БД в актуальном состоянии;
индексная БД (7). Индекс это основной массив данных ИПС, который служит для поиска адреса информационного ресурса.

Рис.1.29. Архитектура современных ИПС

В ИПС используются два варианта индексирования. В первом варианте для будущего поиска составляется поисковый образ (каждого) документа (ПОД) – список терминов, наиболее точно и полно его характеризующий. Индексирование заключается в составлении ПОД всех доступных документов. Но есть и другой вариант, когда индексирование рассматривается как составление инвертированного списка, где каждому термину ставится в соответствие список документов, в которых он встречается.

Основой для индексирования является словарь – фиксированная совокупность ключевых терминов. Словарь может быть:

контролируемый – пополняется администратором ИПС;
свободный – пополняется автоматически по мере появления новых документов и терминов.

Роботы могут выбирать ключевые термины для ПОД из следующих источников:

полные тексты документов;
заголовки – названия документов;
заглавия статей H1, H2;
аннотации статей;
списки ключевых слов;
ГТ-ссылки;
сообщения администраторов о своих Web-страницах;
URL, поля Subject(тема) и Keywords (ключевые слова).

Но индексировать нужно далеко не все слова. Есть и списки запрещенных для индексирования слов (stop-words), а также общих слов (предлоги, союзы и т.п.). Несмотря на это, индексная БД ИПС Lycos составляет 4 Тбайта. Поэтому, чтобы не раздувать словари и индексы, применяются веса терминов. Документ обычно индексируется по 40-100 терминам, имеющим наибольший вес.

Интерфейс пользователя (рис.1.27) – организация страниц запросов/ответов. Запросы содержат меню, строку терминов, логические связки. Ответы содержат:

список указателей (URL) на документы, удовлетворяющие запросу. Каждая ссылка может сопровождаться кратким описанием;
меру соответствия найденного документа запросу, равную числу терминов ПОД, «угаданных» в запросе (имеющихся в найденном документе);
ранжирование по убыванию меры, когда первой стоит ссылка на документ, наиболее полно, по мнению ИПС, соответствующий запросу.

Вызывает интерес процедура коррекции запросов по релевантности – мере соответствия потребностям пользователя. Релевантность бывает:

формальная – ее автоматически вычисляет сама ИПС;
реальная – ее указывает пользователь в специальном поле ввода.

Далее, на следующей итерации поиска запрос расширяется терминами из релевантных документов и так далее до нахождения искомых документов.

В последнее время завоёвывает всё большую популярность практика применения методов кластерного анализа и метапоиска. Из международных машин такого плана наибольшую известность получила «Clusty» компании Vivísimo. В 2005 году в России при поддержке МГУ запущен поисковик Nigma, поддерживающий автоматическую кластеризацию. В 2006 году открылась российская мета-машина Quintura, предлагающая визуальную кластеризацию в виде облака ключевых слов. Nigma тоже экспериментировала с визуальной кластеризацией [42].

Виртуальные библиотеки (ВБ) можно рассматривать как еще один инструмент поиска. ВБ появились в Web раньше ИПС. ВБ содержат не информационные ресурсы Сети, а только их классификацию в виде списка ссылок. ВБ по сути похожа на каталог обычной библиотеки, но по форме отличается. Выделяют два вида информационных структур ВБ:

иерархические классификации, содержащие классы, подклассы и т.д. Их особенности: простой поиск тематического направления; несложная процедура поиска и расширения классов; слишком большое число классов; нельзя приписать документ одновременно к нескольким разным классам; если уменьшить число классов в уровне, то возрастет длина пути. Примеры: библиотечная система УДК, каталог Galaxy. Проблемы: первичное разбиение документов на классы, сокращение длины пути. Отсюда идея – сочетать поиск по ключевым словам и фразам с классификацией: сначала углубиться на 2-3 уровня, затем использовать поиск по ключевым словам. Эта идея реализована в СИС Yahoo, Lycos, OpenText;
фасетные классификации – используются реже и основаны на том, что в одном массиве документов можно построить несколько тематических иерархий – фасет. Фасета – грань или смотровой «глазок» на двери, то есть способ характеризовать объект независимо, с отдельной стороны. Но при этом еще нужен классификатор таких независимых классификаций. Примеры: классификация САПР; телевизионный клуб кинопутешествий различных видов – кругосветные (воздушные, пешеходные, автомобильные), по континентам (природа, климат), странам, городам (история, география, культура, отдых).

Будущее развитие ВБ видится очень интересным:

уже сейчас начинают использоваться дополнительные механизмы:

вложенные списки;
таблицы;
формы-описатели, содержащие много полей и играющие роль шаблонов ввода;
графические образы с чувствительными картинками со ссылками на соответствующие каталоги;

в будущем планируется использовать:

тезаурусы. Тезаурус – полный систематизированный набор данных о какой-либо предметной области, позволяющий человеку или компьютеру в ней ориентироваться;
семантические сети (смысловые структуры искусственного интеллекта);
специальные способы и средства автоматизированной или автоматической коррекции структур ВБ.

Содержание