logo search
МИР учебник

5.6.3. Поисковый сервис Интернета

Созданная с помощью Интернета новая глобальная инфор­мационная среда породила проблемы, связанные с накоплени­ем огромного количества уже доступной информации и стремительного непрерывного роста объема новых ИР, не имеющих четкой индексации в глобальной сети. К тому же многие Web-страницы не имеют четкой рубрикации, позволяющей находить информацию по конкретному направлению деятельности. Уве­личение же объемов научной и прочей информации в каждой из предметной областей знаний ведет к повышению дополни­тельной нагрузки на пользователей, занятых зачастую рутин­ными процессами поиска нужного ИР в "море" других.

Таким образом, возникают значительные трудности по обеспечению полноты и глубины поиска необходимой инфор­мации. Отсюда возникли насущные и не менее важные задачи автоматизации процессов, связанных с поиском информации в Интернете. В связи с этим наряду с развитием и совершен­ствованием самой сети одновременно разрабатываются мето­ды и средства автоматизированного поиска информации в этой сети, которые привели к созданию поискового сервиса сети. Он подразделяется на следующие виды: поисковые системы (машины); тематические каталоги и локализованная система поиска.

Поисковые системы представляют собой программно-тех­нические средства, обеспечивающие регулярное отслеживание сетевого пространства по адресам определенных серверов и сбор в них содержащей информации, которая заносится в базу данных серверов уже поисковых машин. Причем содержание Web-страниц сети помещают в общую базу данных поискового сервера пол­ностью или частично. Пользователи, обращающиеся к поисковым системам, имеют возможность осуществлять полнотекстовый поиск по этой базе данных, используя ключевые слова, относящи­еся к интересующей их теме. Выдача результатов поиска обычно состоит из выдержек рекомендуемых вниманию пользователя страниц и их адресов, оформленных в виде гиперссылок.

Поисковые серверы достаточно многочисленны и разно­образны. Принято различать поисковые системы (индексы) и каталоги.

Основное преимущество поисковых систем глобального масштаба — их оперативность. Пользователем задается клю­чевое слово (словосочетание) — поисковый механизм выдает результаты поиска и точные адреса тех документов, в которых это слово (словосочетание) встречается. При этом многие поис­ковые системы снабжены логическими операциями при форми­ровании сложного запроса (операторы AND, OR, NOT), усече­ния слов с помощью звездочки, вопросительного знака и т.п. Для возможного увеличения или уменьшения весового значения ка- кого-либо слова в некоторых системах применяют знаки плюс или минус. В ряде поисковых систем ограничивают поиск толь­ко по отдельному серверу.

Наиболее распространенными отечественными поисковы­ми системами являются следующие:

Поисковая система "Rambler" (http://www.rambler.ru) — одна из самых самая популярных систем в России, имеющая свой каталог. Она поддерживает все кодировки кириллицы и обеспечивает полнотекстовый поиск более чем в 15 тыс. узлов сети в России и странах ближнего зарубежья.

Поисковая система "Yandex" (http://www.yandex.ru) со­держит документы более чем из 15 тыс. серверов. Имеет мно­гофункциональный язык запросов, что дает возможность орга­низовывать поиск по списку уже отобранных документов для конкретизации результата.

Поисковая система "Aport" (http://www.aport.ru) — самая старая из ориентированных на русский язык систем. Она под­ключена более чем к 12 тыс. серверов. Имеет возможность, при необходимости, автоматически переводить тексты запроса и ответа на английский и русский языки.

Среди отечественных поисковых систем более поздних раз­работок следует отметить следующие: "Atrus" — http:// www.atrus.ru; "List" — http://www.list.ru; "Паук" — http:// www.spider.raser.ru, которые в некоторых случаях превосходят предшествующие системы как по увеличению глубины и ши­роты поиска, так и по предоставлению пользователям большего комфорта.

Среди мировых поисковых систем наиболее известные сле­дующие системы:

"Alta Vista" (http://www.altavista.digital.com), обладающая на сегодняшний день самой обширной базой данных, "Yahoo" (http://www. yahoo.com), снабженная собственным тематичес­ким каталогом, "Hotbot" (http://www.hotbot.com), "Delphion" (http://www.delphion.com) и др.

Многие из этих поисковых систем предлагают интерфейс на 25 языках мира.

Описание разнообразных поисковых систем Интернета можно найти на сайтах: http://adleo.ru/russian_engines.php; http://subscribe.ru/catalog/inet.search.poiskl64; http:// www.iskati.com/foreign_search_system.php и др. На них пред­ставлены характеристики иностранных и отечественных по­исковых систем и краткие рекомендации по их использова­нию.

Тематические каталоги — поисковые средства справоч­ного типа, представляющие собой многоуровневую смысловую классификацию ссылок, построенную по принципу "от обще­го к частному". При этом ссылки иногда сопровождаются крат­ким описанием ресурса. Как правило, предоставляется воз­можность поиска в названиях рубрик (категориях) и описани­ях ресурсов по ключевым словам, а также возможность опре­делить, с каким именно ресурсом Интернета следует ознако­миться, переходя от самых общих категорий к более частным.

Поисковые каталоги уместно сравнивать с тематическими библиотечными каталогами, словарями-тезаурусами или био­логическими классификациями.

Поисковые каталоги бывают общего назначения и специализированные, причем первые включают в себя ресур­сы самого разного профиля, а специализированные каталоги объединяют ресурсы, посвященные определенной тематике. В данном случае удается достичь лучшего охвата ресурсов опре­деленной предметной области и построить более адекватную рубрикацию.

Инициаторами наполнения ресурсов в каталогах выступа­ют владельцы информационных ресурсов. Каталоги по сравне­нию с поисковыми системами отличаются более точными и све­жими данными, но уступают им в количественных показателях.

Сервер, имеющий каталог www.ru, появившийся одним из первых в России (был создан в сентябре 1995 г.), имеет самый про­стой и запоминающийся адрес. Очень часто на него попадают ино­странцы в поисках любой информации о России. Он занимает 8-е место среди всех интернет-ресурсов, используемых россиянами, 4-е среди российских поисковых серверов и каталогов.

Каталог "Rambler" (http://www.rambler.ru) содержит 30 рубрик с названиями ресурсов, но без их описания. Имеется статистика посещаемости страниц.

Классический каталог "Ау" (http://www.ay.ru) является одним из лучших рубрикаторов русского сегмента Интерне­та, имеет трехуровневую структуру рубрикатора, содержит около 9 тыс. доступных источников с российских серверов.

Каждая ссылка системы включает в себя аннотацию с харак­теристикой содержания сервера.

Каталог-классификатор Web-pecypcoB http:// www.refer.ru охватывает множество ресурсов СНГ и России.

Большую помощь в поиске первичной и особенно вторич­ной информации оказывают электронные каталоги библиотек, библиографические и тематические базы данных.

Так, к примеру, перечень зарубежных и отечественных каталогов "Русской справочной библиотеки" находится на сай­те http://library.vadimstepanov.ru. Перечни библиотечных ката­логов представлены на сервере "Библиотеки Конгресса США" http://www.loc.gov/index.html, серверах различных универси­тетов, например МГУ — http://nbmgu.ru/search и т.д.

Широко известны также справочники "Желтые страницы Интернет. Мировые ресурсы", "Желтые страницы Интернет. Русские ресурсы" и др.

В заключение необходимо отметить, что Интернет в настоящее время становится одним из основных и важнейших источников ин­формации и предлагает огромное количество разнообразной инфор­мации, которая только частично ориентирована на определенные потребности пользователя. При этом требуется соблюдение опре­деленных правил поиска и извлечения нужной информации.

В этой системе выделяют пять основных уровней представ­ления текстов источников информации. Первый уровень вклю­чает библиографическую информацию о документе. Второй уро­вень — резюме. Третий уровень представлен полнотекстовыми базами данных в формате ASC II, который позволяет осуще­ствлять самый сложный поиск по базе данных. Четвертый уро­вень — публикация в графических форматах. Пятый — ис­пользование формата "текст + графика".

Приступая к поиску информации в Интернете, следует иметь в виду, что поисковые средства не в состоянии охватить весь текущий информационный массив сети. Ни одна поиско­вая система не индексирует всего, что есть в глобальной сети. Даже наиболее признанные поисковые системы не могут отра­зить более 15% информационного содержания сети Интернета, причем эта величина постоянно снижается по причине интен­сивного прироста объемов поступающей информации.

Отсюда видно, что при поиске информации в Интернете сам пользователь должен применять разные методики для до­стижения более эффективных результатов поиска. Так, в ряде случаев следует применять поисковые системы и электрон­ные каталоги в сочетании друг с другом, а в некоторых случа­ях поиск по сложному запросу лучше проводить отдельно в каждой поисковой системе. При этом надо учитывать, что при­меняемые методы зачастую приводят не к получению иско­мой информации, а только к ссылкам на связи с другими Web- страницами, которые и могут дать релевантную информацию.