Поиск информации в Интернет
В мире существует огромное количество WWW серверов самого разного назначения. Без специальных средств ориентировка в этом гигантском объеме информации просто невозможна. Решают эту проблему поисковые серверы, которые хранят миллионы ссылок на разные темы и производят поиск нужных документов по запросу пользователя.
Для того чтобы облегчить поиск документов были созданы каталоги WEB-серверов и поисковые машины. В большинстве случаев каталог представляет собой тематические подборки ссылок на Web-ресурсы (медицина, политика, программирование и т. д.). Поисковые же машины позволяют попасть на страничку, текст которой содержит заданный набор слов. Каждая поисковая машина обладает своими специфическими возможностями, достоинствами и недостатками. Следует отметить, что наполнение сети Интернет русскоязычной информацией, хотя и происходит быстрыми темпами, все еще значительно отстает от уровня англоязычной информацией. Английский язык продолжает оставаться основным языком общения пользователей Интернет.
Познакомимся с возможностями некоторых поисковых серверов.
AltaVista - http://www.av.com
Это одна из первых наиболее мощных поисковых машин. Она имеет встроенный переводчик страниц с английского языка на французский, немецкий, итальянский, испанский и т. д. и обратно. Правда, на русский язык она переводить не умеет. Схема использования стандартна: в строке для ввода пишутся ключевые слова, а затем нажимается кнопка Search (поиск). Далее выдается список ссылок на страницы с краткой аннотацией.
Yahoo! - http://www.yahoo.com
Это не только поисковая машина, но и крупнейший классификатор ресурсов сети. Здесь выделено несколько разделов верхнего уровня: исскуство, бизнес, компьютеры, образование, развлечения, правительство и другие. Каждый из разделов помимо ссылок содержит подразделы, которые в свою очередь тоже содержат подразделы и т. д.
Искать интересующую информацию можно как с помощью строки запроса аналогично AltaVista, так и перемещаясь по разделам, но в последнем случае необходимо точно знать, к какой именно категории относится предмет поиска.
Rambler - http://www.rambler.ru
Помимо известной поисковой системы, сервер "Rambler" включает классификационный каталог "Rambler Top 1000", состоящий из категорий, которые охватывают все основные тематические направления российских Web-серверов.
В разделах списки серверов оформлены в виде таблицы. На одном экране выводится 20 ссылок. По умолчанию сортировка идет по текущей посещаемости серверов в каждой категории. Для каждого ресурса приводится дополнительная информация о числе посещений и динамике популярности сервера.
Таким образом, сервер помогает получить верное представление о популярности отечественных Web-серверов. Российская часть Интернет представлена здесь достаточно полно.
Яndex - http://www.yandex.ru
Занимает одно из ведущих мест среди русскоязычных поисковых серверов. Активно и динамично развивается.
Стратегии, применяемые для поиска информации в Интернет, постоянно совершенствуются. Так Google (www.google.com), некоторое время назад считавшийся экспериментальной поисковой системой, сейчас пользуются пятнадцать миллионов человек ежемесячно. Секрет Google в удачном алгоритме отбора документов, отвечающих поисковому запросу. Предшественники Google пытались определить "ценность" документа только на основании анализа его текста: как часто и как близко к началу документа встречаются там слова из запроса, есть ли они в заголовке и т. д.
Создатели Google решили оценивать соответствие документа запросу с помощью специального числа, похожего по смыслу на индекс цитирования: чем больше ссылок на данный документ, тем это число, называемое PageRank, больше. Если же сервер не находит запрашиваемой комбинации в своем каталоге, то пользуется тематическим каталогом Yahoo. Результаты оказались столь хороши, что Google стал "народной" поисковой системой. Google постоянно совершенствует свой сервис: проиндексированы все документы в формате pdf, организован поиск картинок в Интернет (images.google.com).
Одним из недостатков Google можно считать отсутствие диалога с пользователем во время подбора документов. Этот недостаток стараются исправить конкуренты Google, классифицируя найденные документы. Так поисковая система Teoma (www.teoma.com) автоматически классифицирует найденные ссылки на документы. Результаты при выводе делятся на три части: собственно классификация, занимающая верхнюю часть окна, документы, лучше всего соответствующие запросу, размещаются слева, а справа выводятся документы, в которых много ссылок на страницы, стоящие слева.
Рис. 12. Окно метапоисковой системы Vivisimo
Еще одним претендентом на роль заменителя Google является метапоисковая система Vivisimo (www.vivisimo.com), разработанная в университете Карнеги. Как и Google в прошлом, Vivisimo - экспериментальный некоммерческий проект. Основной особенностью этой системы является представление в виде дерева (иерархическая кластеризация) документов, найденных другими поисковыми системами, такими как Altavista и Fast (www.allthemes.com). В сущности Vivisimo даже не метапоисковая система, а приставка, способная кластеризовать любые данные. Алгоритм кластеризации Vivisimo присоединяется к любой поисковой системе. В окошке правее окна запросов можно вместо "Search the Web" выбрать например "Альтависту". Vivisimo перехватит ссылки, выданные "Альтавистой", отсортирует их и разместит их на ветках дерева в левой части своего окна.
- Введение
- Информационные процессы
- Информационная деятельность человека
- Технические средства хранения информации
- Кодирование информации
- Единицы измерения информации
- Форматы файлов
- Системы счисления
- Двоичная система счисления
- Двоично-шестнадцатеричная таблица
- Двоично-восьмеричная таблица
- Кодирование текста
- Кодирование графической информации
- Кодирование звука
- Типы и назначение компьютеров
- Магистрально-модульный принцип построения компьютера
- Периферийные и внутренние устройства
- Программный принцип управления компьютером
- Компьютерные вирусы
- Правовая охрана программ и gpl
- Введение
- Операционные системы
- Операционная система ms dos
- Операционная система Linux
- Особенности ос Linux
- Графическая среда kde
- Компоненты рабочего стола
- Использование окон
- Поиск файлов
- Эмулятор терминала
- Команды для работы с файлами
- Переадресация ввода и вывода
- Перемещение по файловой системе
- Права доступа к файлам и каталогам
- Копирование файлов
- Создание и удаление каталогов
- Просмотр содержимого файлов
- Перемещение и переименование
- Удаление файлов
- Работа с дискетой ms dos
- Архивация и сжатие файлов
- Изменение прав доступа к файлам
- Команды для работы с файлами и каталогами
- Фильтры
- Другие полезные команды
- Konqueror - файловый менеджер и браузер
- Программа Midnight Commander (mc)
- Компьютерные сети
- Технология World Wide Web (www)
- Универсальный локатор ресурса (url)
- Браузеры и их назначение
- Поиск информации в Интернет
- Электронная почта (e-mail)
- Настройка почты в Netscape
- Отправка почты
- Получение почты
- Inbox -- пришедшие письма;
- Базовые сетевые утилиты
- Введение
- Растровый формат
- Глубина цвета
- Особенности растровой графики
- Jpeg -- формат
- Средства работы с графикой
- Редактор Paint
- Знакомство с редактором
- Редактирование и преобразование рисунка в Paint
- Набор инструментов для рисования
- Рабочее окно xPaint
- Графический редактор gimp
- Интерфейс программы
- Панель инструментов
- Окно изображения
- Ввод графики в эвм
- Обзор цифровой фототехники
- Виды сканеров, их назначение и характеристики
- Особенности сканирования изображений
- Графические планшеты
- Введение
- Форматы текстовых файлов
- Редакторы plain-текста
- NotePad (Блокнот)
- Редактор kEdit
- Редактор kWrite
- Редактор McEdit
- Текстовый редактор Emacs
- Работа с файлами
- Редактирование
- Клавиатурные макросы
- Дополнительные возможности
- Текстовый процессор ms Word
- Колонтитулы
- Многоколоночный текст
- Вставка графики
- Текстовые эффекты
- Включение математических формул