5.6.3. Поисковый сервис Интернета
Созданная с помощью Интернета новая глобальная информационная среда породила проблемы, связанные с накоплением огромного количества уже доступной информации и стремительного непрерывного роста объема новых ИР, не имеющих четкой индексации в глобальной сети. К тому же многие Web-страницы не имеют четкой рубрикации, позволяющей находить информацию по конкретному направлению деятельности. Увеличение же объемов научной и прочей информации в каждой из предметной областей знаний ведет к повышению дополнительной нагрузки на пользователей, занятых зачастую рутинными процессами поиска нужного ИР в "море" других.
Таким образом, возникают значительные трудности по обеспечению полноты и глубины поиска необходимой информации. Отсюда возникли насущные и не менее важные задачи автоматизации процессов, связанных с поиском информации в Интернете. В связи с этим наряду с развитием и совершенствованием самой сети одновременно разрабатываются методы и средства автоматизированного поиска информации в этой сети, которые привели к созданию поискового сервиса сети. Он подразделяется на следующие виды: поисковые системы (машины); тематические каталоги и локализованная система поиска.
Поисковые системы представляют собой программно-технические средства, обеспечивающие регулярное отслеживание сетевого пространства по адресам определенных серверов и сбор в них содержащей информации, которая заносится в базу данных серверов уже поисковых машин. Причем содержание Web-страниц сети помещают в общую базу данных поискового сервера полностью или частично. Пользователи, обращающиеся к поисковым системам, имеют возможность осуществлять полнотекстовый поиск по этой базе данных, используя ключевые слова, относящиеся к интересующей их теме. Выдача результатов поиска обычно состоит из выдержек рекомендуемых вниманию пользователя страниц и их адресов, оформленных в виде гиперссылок.
Поисковые серверы достаточно многочисленны и разнообразны. Принято различать поисковые системы (индексы) и каталоги.
Основное преимущество поисковых систем глобального масштаба — их оперативность. Пользователем задается ключевое слово (словосочетание) — поисковый механизм выдает результаты поиска и точные адреса тех документов, в которых это слово (словосочетание) встречается. При этом многие поисковые системы снабжены логическими операциями при формировании сложного запроса (операторы AND, OR, NOT), усечения слов с помощью звездочки, вопросительного знака и т.п. Для возможного увеличения или уменьшения весового значения ка- кого-либо слова в некоторых системах применяют знаки плюс или минус. В ряде поисковых систем ограничивают поиск только по отдельному серверу.
Наиболее распространенными отечественными поисковыми системами являются следующие:
Поисковая система "Rambler" (http://www.rambler.ru) — одна из самых самая популярных систем в России, имеющая свой каталог. Она поддерживает все кодировки кириллицы и обеспечивает полнотекстовый поиск более чем в 15 тыс. узлов сети в России и странах ближнего зарубежья.
Поисковая система "Yandex" (http://www.yandex.ru) содержит документы более чем из 15 тыс. серверов. Имеет многофункциональный язык запросов, что дает возможность организовывать поиск по списку уже отобранных документов для конкретизации результата.
Поисковая система "Aport" (http://www.aport.ru) — самая старая из ориентированных на русский язык систем. Она подключена более чем к 12 тыс. серверов. Имеет возможность, при необходимости, автоматически переводить тексты запроса и ответа на английский и русский языки.
Среди отечественных поисковых систем более поздних разработок следует отметить следующие: "Atrus" — http:// www.atrus.ru; "List" — http://www.list.ru; "Паук" — http:// www.spider.raser.ru, которые в некоторых случаях превосходят предшествующие системы как по увеличению глубины и широты поиска, так и по предоставлению пользователям большего комфорта.
Среди мировых поисковых систем наиболее известные следующие системы:
"Alta Vista" (http://www.altavista.digital.com), обладающая на сегодняшний день самой обширной базой данных, "Yahoo" (http://www. yahoo.com), снабженная собственным тематическим каталогом, "Hotbot" (http://www.hotbot.com), "Delphion" (http://www.delphion.com) и др.
Многие из этих поисковых систем предлагают интерфейс на 25 языках мира.
Описание разнообразных поисковых систем Интернета можно найти на сайтах: http://adleo.ru/russian_engines.php; http://subscribe.ru/catalog/inet.search.poiskl64; http:// www.iskati.com/foreign_search_system.php и др. На них представлены характеристики иностранных и отечественных поисковых систем и краткие рекомендации по их использованию.
Тематические каталоги — поисковые средства справочного типа, представляющие собой многоуровневую смысловую классификацию ссылок, построенную по принципу "от общего к частному". При этом ссылки иногда сопровождаются кратким описанием ресурса. Как правило, предоставляется возможность поиска в названиях рубрик (категориях) и описаниях ресурсов по ключевым словам, а также возможность определить, с каким именно ресурсом Интернета следует ознакомиться, переходя от самых общих категорий к более частным.
Поисковые каталоги уместно сравнивать с тематическими библиотечными каталогами, словарями-тезаурусами или биологическими классификациями.
Поисковые каталоги бывают общего назначения и специализированные, причем первые включают в себя ресурсы самого разного профиля, а специализированные каталоги объединяют ресурсы, посвященные определенной тематике. В данном случае удается достичь лучшего охвата ресурсов определенной предметной области и построить более адекватную рубрикацию.
Инициаторами наполнения ресурсов в каталогах выступают владельцы информационных ресурсов. Каталоги по сравнению с поисковыми системами отличаются более точными и свежими данными, но уступают им в количественных показателях.
Сервер, имеющий каталог www.ru, появившийся одним из первых в России (был создан в сентябре 1995 г.), имеет самый простой и запоминающийся адрес. Очень часто на него попадают иностранцы в поисках любой информации о России. Он занимает 8-е место среди всех интернет-ресурсов, используемых россиянами, 4-е среди российских поисковых серверов и каталогов.
Каталог "Rambler" (http://www.rambler.ru) содержит 30 рубрик с названиями ресурсов, но без их описания. Имеется статистика посещаемости страниц.
Классический каталог "Ау" (http://www.ay.ru) является одним из лучших рубрикаторов русского сегмента Интернета, имеет трехуровневую структуру рубрикатора, содержит около 9 тыс. доступных источников с российских серверов.
Каждая ссылка системы включает в себя аннотацию с характеристикой содержания сервера.
Каталог-классификатор Web-pecypcoB http:// www.refer.ru охватывает множество ресурсов СНГ и России.
Большую помощь в поиске первичной и особенно вторичной информации оказывают электронные каталоги библиотек, библиографические и тематические базы данных.
Так, к примеру, перечень зарубежных и отечественных каталогов "Русской справочной библиотеки" находится на сайте http://library.vadimstepanov.ru. Перечни библиотечных каталогов представлены на сервере "Библиотеки Конгресса США" http://www.loc.gov/index.html, серверах различных университетов, например МГУ — http://nbmgu.ru/search и т.д.
Широко известны также справочники "Желтые страницы Интернет. Мировые ресурсы", "Желтые страницы Интернет. Русские ресурсы" и др.
В заключение необходимо отметить, что Интернет в настоящее время становится одним из основных и важнейших источников информации и предлагает огромное количество разнообразной информации, которая только частично ориентирована на определенные потребности пользователя. При этом требуется соблюдение определенных правил поиска и извлечения нужной информации.
В этой системе выделяют пять основных уровней представления текстов источников информации. Первый уровень включает библиографическую информацию о документе. Второй уровень — резюме. Третий уровень представлен полнотекстовыми базами данных в формате ASC II, который позволяет осуществлять самый сложный поиск по базе данных. Четвертый уровень — публикация в графических форматах. Пятый — использование формата "текст + графика".
Приступая к поиску информации в Интернете, следует иметь в виду, что поисковые средства не в состоянии охватить весь текущий информационный массив сети. Ни одна поисковая система не индексирует всего, что есть в глобальной сети. Даже наиболее признанные поисковые системы не могут отразить более 15% информационного содержания сети Интернета, причем эта величина постоянно снижается по причине интенсивного прироста объемов поступающей информации.
Отсюда видно, что при поиске информации в Интернете сам пользователь должен применять разные методики для достижения более эффективных результатов поиска. Так, в ряде случаев следует применять поисковые системы и электронные каталоги в сочетании друг с другом, а в некоторых случаях поиск по сложному запросу лучше проводить отдельно в каждой поисковой системе. При этом надо учитывать, что применяемые методы зачастую приводят не к получению искомой информации, а только к ссылкам на связи с другими Web- страницами, которые и могут дать релевантную информацию.
- 7. Моделирование процессов формирования и распространения информационных ресурсов 102
- 8. Характеристика рынка информационных продуктов и услуг 116
- 9. Потребители информационных ресурсов и их информационные потребности 120
- 10. Источники и поставщики информационных ресурсов 125
- 1. Сущность информации
- 1.1. Основные понятия
- 1.2. Цели получения информации
- 1.3. Носители информации
- 1.3.1. Данные
- 1.3.2. Документы
- 1.3.3. Сигналы
- 3. Сигнал дискретизированный (или дискретный) во времени с непрерывным по размеру параметром (рис. 1.4).
- Вопросы для самоконтроля
- 2. Основные понятия и сущность информационных ресурсов
- 2.1. Определение информационных ресурсов
- 2.2. Информационное описание объекта и формирование информационных ресурсов
- 2.3. Возникновение и развитие информационных ресурсов
- 2.4. Классификация информационных ресурсов
- 2.5. Роль и значение информационных ресурсов в развитии информационных технологий и в информатизации общества
- Вопросы для самоконтроля
- 3. Недокументированные информационные ресурсы
- 3.1. Индивидуальные знания специалистов
- 3.2. Коллективные знания специалистов
- Вопросы для самоконтроля
- 4. Документированные информационные ресурсы
- 4.1. Текстовые (письменные) информационные ресурсы
- 4.2. Характеристика первичных документов, опубликованных в виде издания
- 4.3. Характеристика первичных документов, не опубликованных в виде издания
- 4.4. Характеристика вторичных документов (информационных изданий)
- Вопросы для самоконтроля
- 5. Электронные информационные ресурсы
- 5.1. Общие сведения
- 5.2. Характеристика баз данных
- 5.3. Электронные издания
- 5.4. Мультимедиасистемы
- 5.5. Гипертекстовые системы
- 5.6. Ресурсы Интернета
- 5.6.1. Общие положения
- 5.6.2. Сервисные услуги Интернета
- 5.6.3. Поисковый сервис Интернета
- Вопросы для самоконтроля
- 6. Качество информации и его оценка
- 6.1. Характеристики качества информационных ресурсов
- 6.2. Проблема оценки качества информации и эффективности ее использования
- 6.3. Методика формализованной оценки качества информационных ресурсов и эффективности их использования
- 7. Моделирование процессов формирования и распространения информационных ресурсов 102
- 8. Характеристика рынка информационных продуктов и услуг 116
- 9. Потребители информационных ресурсов и их информационные потребности 120
- 10. Источники и поставщики информационных ресурсов 125
- Лист экспертной оценки эффективности использования информационного ресурса
- 6.4. Пример формализованной оценки качества информационных ресурсов и эффективности их использования
- Лист экспертной оценки эффективности использования информационного ресурса Название: Информационный ресурс х
- Вопросы для самоконтроля
- 7. Моделирование процессов формирования и распространения информационных ресурсов
- 7.1. Формирование единого информационного пространства
- 7.2. Разработка модели организации информационных ресурсов и банка информационных ресурсов
- 7.3. Разработка модели виртуального маршрута и маршрутизации информационных ресурсов
- 7.4. Разработка модели обработки запроса пользователя на получение информационного ресурса
- 7.5. Разработка модели обслуживания заявок на получение информационного ресурса — реализации услуг
- 7.6. Методы формирования и распространения информационных ресурсов
- Вопросы для самоконтроля
- 8. Характеристика рынка информационных продуктов и услуг
- Вопросы для самоконтроля
- 9. Потребители информационных ресурсов и их информационные потребности
- Вопросы для самоконтроля
- 10. Источники и поставщики информационных ресурсов
- 10.1. Общие положения
- 10.2. Источники и поставщики информационных ресурсов для специалистов
- 10.2.1. Источники и поставщики научно-технической отраслевой информации
- 10.2.2. Источники и поставщики патентной информации
- 10.2.3. Источники и поставщики информации по стандартизации, метрологии и сертификации
- 10.2.4. Источники и поставщики информации по статистике
- 10.2.5. Источники и поставщики юридически-правовой информации
- 10.3. Поставщики рыночной информации
- 10.4. Поставщики образовательных информационных ресурсов
- 10.5. Библиотечный фонд
- 10.6. Архивный фонд
- Вопросы для самоконтроля
- 11. Основы правового регулирования на информационном рынке
- Вопросы для самоконтроля
- Какую информацию запрещают к распространению в средствах массовой информации? литература