logo search
Мейрбекова,Хайрушева-Мат-08[1]

Поисковые системы

Поисковые системы – это полностью автоматизированные интерактивные службы поиска информации в Интернете по введенному пользователем текстовому запросу.

Создав и разместив в Интернете веб-сайт, разработчик регистрирует его адрес в поисковой системе, т.е. вносит URL стартовой странички в соответствующее поле на поисковом сервере. Вслед за этим специальная программа поисковой системы, называемая роботом, или спайдером, просматривает данный документ, проходит по всем обнаруженным на нем гиперссылкам и вносит информацию об обнаруженных страницах в базу данных поисковой системы, которая носит название индекса. Этот процесс носит называется индексацией веб-страниц. Как правило, индекс поискового сервера содержит только адреса веб-страниц и краткую аннотацию (70-150 символов), поясняющую их содержимое и почерпнутую из текста самих индексируемых документов. Спустя некоторое время робот автоматически проводит переиндексацию, в ходе которой удаляет из базы данных устаревшие и более недействительные ссылки.

Пользователь, обращаясь к поисковой машине, просто вводит в поле текстового запроса ключевые слова, характеризующие предмет его интересов. После того как он нажмет кнопку «искать», поисковый сервер передает управление другой программе, которая называется поисковым механизмом. Эта программа сравнивает введенные ключевые слова с содержимым индекса, выявляя возможные соответствия. Например, получив запрос «идти», поисковый механизм может расширить диапазон поиска, включив в список ключевых слов глаголы «пойти», «шел», «шла», «пойдет» и т.д. Ссылки, в описании которых обнаруживаются подобные совпадения, автоматически включаются поисковым механизмом в файл отчета, предоставляемый пользователю в виде списка гиперссылок на найденные ресурсы с краткими текстовыми аннотациями для каждой из них. Степень соответствия обнаруженных таким образом ссылок исходному запросу называется релевантностью поиска.

Интерфейс большинства поисковых машин интуитивно понятен даже неподготовленному пользователю. Однако качество работы большинства поисковых систем все же не идеально, и релевантность предоставляемых ими отчетов зачастую оставляет желать лучшего. Поисковый механизм – не живой человек и какие бы совершенные эвристические методы анализа информации он не использовал, понимание многозначности некоторых слов и свойственное нам интуитивное восприятие разговорной речи ему, увы, недоступно. Поэтому в ответ на запрос «закон» вы можете получить и полный текст Гражданского кодекса РК, и формулировку закона всемирного тяготения, и русскую народную пословицу про закс и дышло.

Комментарий к тексту:

Индекс – база данных о проиндексированных роботом документах.

Поисковый механизм – программа, проверяющая содержание индексов в соответствии с запросом пользователя.

Поисковый робот – программа, которая просматривает веб-страницы и считывает их содержимое, следуя по ссылкам, найденным в документах.

Релевантность – степень соответствия обнаруженных ссылок исходному запросу пользователя.

Файл отчета – генерируемый роботом список гиперссылок на найденные ресурсы с краткими аннотациями.