Тема 3. Поиск информации в интернете Поисковые системы как средство эффективного поиска информации в Сети
Рано или поздно любой пользователь Сети сталкивается с проблемой поиска информации. Информационное пространство Сети огромно и растет с каждым днем. Поэтому поиск информации может занять от нескольких минут до нескольких часов, иногда дней. Все в данном случае зависит от умения искать и находить нужные данные в Интернете.
Большое значение с точки зрения поиска информации имеет одна из важнейших служб Интернета – Всемирная паутина (WWW). Ее образуют миллионы серверов Сети, расположенные по всему миру. В 1998 г. в Интернете насчитывалось порядка 1 млн. веб-сайтов. Количество зарегистрированных доменных имен в Сети с 2000 г. выросло в 10 раз и на 01.01.2010 г. составило 733 млн. единиц. Количество пользователей Интернета выросло с 16 млн. человек в 1995 г. (0,4 % от общей численности населения мира) до 1 967 млн. в 2010 г. (28,7 % населения).
Всемирная паутина непрерывно связана с понятием гипертекста. Гипертекст (Hypertext) – это документ или система документов с перекрестными ссылками (гиперссылками). Для создания, хранения и отображения информации используется язык разметки гипертекста – HTML. HTML-файл является самым распространенным ресурсом Всемирной паутины.
В Сети наряду с актуальной информацией содержится много устаревших ресурсов, мусора и недобросовестной рекламы. Находить информацию в Интернете было бы очень трудно без помощи мощных поисковых инструментов таких, как:
- поисковые машины (поисковики);
- каталоги-рейтинги (рубрикаторы);
- тематические подборки списков ссылок;
- он-лайновые энциклопедии, словари, базы данных и т.д.
При этом для разных задач поиска информации необходимо использовать разные способы.
Информационный поиск – процесс поиска неструктурированной документальной информации и наука об этом поиске. Термин введен Кельвином Муром в 1948 г.
Для его проведения и были разработаны системы автоматизированного поиска (ИПС), которые стали широко использоваться с появлением Интернет.
Поиск информации состоит из 4 этапов;
1) определение информационной потребности и формулировка информационного запроса;
2) определение совокупности возможных держателей информационных массивов;
3) извлечение информации из выявленных информационных массивов;
4) ознакомление с полученной информацией и оценка результатов поиска.
Как показывает практика использования ИПС:
- 90 % пользователей задают поисковикам нечеткие запросы;
- 75 % пользователей не пытаются изменить запрос, если не находят нужной информации;
- 80 % запросов не содержат операторов.
Поиско́вая систе́ма (ПС) – программно-аппаратный комплекс с веб-интерфейсом, предоставляющий возможность поискаинформациивИнтернете. Под поисковой системой обычно подразумеваетсясайт, на котором размещён интерфейс (фронт-энд) системы. Программной частью поисковой системы являетсяпоисковая машина (ПМ) – комплекс программ, обеспечивающий функциональность поисковой системы и обычно являющийся коммерческой тайной компании-разработчика поисковой системы.
Большинство поисковых систем ищут информацию на сайтах Всемирной паутины, но существуют также системы, способные искатьфайлынаFTP-серверах, товары винтернет-магазинах, а также информацию в группах новостейUsenet.
Рассмотрим подробнее механизм поиска с помощью поисковых машин. Комплект программ поисковой машины следующий:
- «Паук» (Spider) – программа, которая загружает в поисковую машину веб-страницы. Работает аналогично браузеру, но ничего не отражает на экране. Передает в поисковую систему HTML-код документа.
- «Червяк» или «путешествующий паук» (Crawler) – программа, способная найти на веб-странице все ссылки на другие страницы. Ее задача – определить, куда дальше должен «ползти» «паук», руководствуясь ссылками или заранее заданным списком адресов.
- Индексатор (Indexer) – программа, которая «разбирает» страницу на составные части и анализирует их. Вычленяются и анализируются заголовки веб-страниц, заголовки документов, ссылки, тексты документов. Отдельно анализируется текст, выделенный полужирным шрифтом, курсивом и т.д.
- База данных (Database) – хранилище всех данных, которые поисковая система загружает и анализирует. Требует огромных ресурсов как для хранения, так и для последующей обработки.
- Система выдачи результатов поиска (Search Engine Results Engine) – программа, которая принимает решение, какие страницы удовлетворяют запросу пользователя, и в какой степени. Именно с этой частью поисковой системы «общается» пользователь.
Первые две программы, работающие «в связке», часто называют поисковый робот или HTTP-робот.
Процесс загрузки информации из Интернета и предварительного анализа ее поисковой машиной называют индексацией.
База данных ПС, в которой хранится вся собранная информация, называется индекс.
Глубина индексации может быть разной (полные тексты документов на странице, заголовки). После ввода запроса на поиск, поисковая машина просматривает свою базу данных и выдает перечень страниц, содержащих слова, введенные пользователем в поле ввода (ключевые слова). Таких страниц может быть очень много, задача ПМ отобрать те из них, которые максимально отвечают запросу пользователя (т.е., релевантны ему) и указать ссылки на них в числе первых.
Алгоритм поиска – это метод, руководствуясь которым поисковая машина принимает решение включать или не включать ссылку на страницу либо документ в результаты поиска.
Каждая поисковая машина использует собственный алгоритм поиска («ноу-хау» разработчика ПС). Но вместе с тем существуют общие критерии отбора документов, которыми руководствуются большинство ПС:
1. Присутствие ключевого слова в имени домена или в адресе страницы (URL). Если ответ положительный, то «вес» страницы увеличивается, т.е. больше вероятность появления ссылки на эту страницу в числе первых.
2. Присутствие ключевого слова в заголовке документа (между тегами <title и /title). «Вес» страницы также увеличивается.
3. Ключевое слово содержится в названиях разделов, подразделов документов. Это также приводит к увеличению значимости страницы.
4. Ключевое слово встречается в тексте документа, выделенным жирным шрифтом, курсивом и т.д. «Вес» страницы увеличивается.
5. Ключевое слово должно встречаться в тексте веб-документа достаточно часто (по статистике от 5до 7 % от всего объема текста). Если это происходит чаще, то будет расцениваться как спам либо специальная попытка разработчика страницы увеличить ее «вес».
6. Расположение слов в веб-документе находится в том же порядке, что и в запросе, что приводит к большей вероятности появления ссылки на эту страницу в числе первых.
7. Ключевые слова расположены в документе в одном предложении подряд либо между ними небольшое расстояние. «Вес» страницы увеличивается.
8. Присутствие ключевого слова в тексте ссылки на данной странице также дает положительный результат.
9. Наличие других страниц (на этом же сайте или на других), с которых ведут ссылки на документ. Чем с большего количества страниц будет ссылок на искомый документ, тем большим будет его «вес».
10. Совпадение слов, введенных в поле запроса с ключевыми словами, указанными на странице ее разработчиком или со словами, указанными разработчиком в описании страницы. Этот вариант также приводит к увеличению значимости страницы.
Основными преимуществами поисковых систем являются:
- достаточно высокая релевантность при поиске;
- индексы ПС охватывают больше ресурсов, чем каталоги;
- скорость поиска выше, чем при использовании каталогов, т.к. поисковик сразу выдает ссылки на документы, а в каталоге к ним продвигаешься постепенно;
- в ПС меньше устаревших ссылок, чем в каталогах.
К недостаткам поисковых систем можно отнести то, что:
- некоторые разработчики ресурсов с целью увеличения посещаемости их сайтов могут обманывать поисковики;
- пользоваться ПС, особенно в режимах сложного поиска, при котором надо знать язык запросов конкретной поисковой машины, сложнее, чем каталогом.
Перспективным направлением развития поисковых сервисов является разработка метапоисковых систем поиска. Метапоисковые системы (МПС) – системы, позволяющие проводить поиск по запросу пользователя сразу в нескольких поисковых системах.
Метапоисковая система является посредником между пользователем и множеством поисковых систем. Она не предназначена для индексирования и накопления информации, ее назначение – чистый поиск и обработка результатов поиска.
В отличие от ПС и каталогов, МПС не имеют собственных баз данных и не регистрируют адреса сайтов и сами по себе не занимаются поиском. Система переадресовывает запрос сразу нескольким поисковым системам, ссылки выводятся по всем системам без дублирования. Они экономят достаточно много времени, избавляя от необходимости вводить запрос в каждой отдельной поисковой системе. Результаты, в большинстве случаев в высшей степени релевантны. Метапоисковые системы могут использоваться владельцами сайтов для выяснения, присутствует ли их сайт в главных ПС, какие у него рейтинги. В запросах метапоисковиков можно использовать только общие операторы, которые приемлемы для большинства ПС. Встречаются метапоисковые машины с собственным языком запросов, но их мало.
МПС целесообразно применять в следующих случаях:
- при поиске документов с редкими словами или фразами;
- в самом начале процесса поиска, т.к. можно получить самые релевантные результата по нескольким ПС.
Наиболее популярными российскими МПС являются: MetaBot.ru (http://www.metabot.ru) и интеллектуальная поисковая система Нигма.РФ (http://www.nigma.ru). Последняя позволяет одновременно производить поиск в таких ПС, как Yandex, Google, Rambler, Yahoo!, Altavista, Aport, Nigma. Общее количество документов для поиска > 1 млн, обладает собственными возможностями для индексирования веб-страниц.
Среди зарубежных МПС можно выделить:
- Meta Crawler (http://www.metacrawler.com) – > 10 ПС и каталогов;
- Ixquick (http://www.ixquick.com) – т.н. «скрытый» веб;
- Surfwax (http://www.surfwax.com) – платная система;
- Vivisimo (http://www.vivisimo.com) – поддерживает, в том числе, и русскоязычные запросы;
- МПС компании CNET., Inc (http:// www.search.com) – поиск ведется по 20 ПС.
При поиске информации могут быть задействованы и поисковые агенты (оффлайновые метапоисковики), т.е. программы, которые устанавливаются на компьютере пользователя. Наиболее известным из них является Copernic Agent (http://www.copernic.com). Поиск можно вести на нескольких языках: английском, немецком, французском, испанском.
Существуют также специализированные и оригинальные поисковые системы и каталоги:
- каталоги поисковых систем AlltheWeb, Altavista, Google (http://www.bestsearchers.com/search-general/search-engines.html);
- ежедневные обзоры стартапов, интересных и полезных интернет-проектов Рунета (http://www.catalogr.ru);
- оригинальная поисковая система Mrquery gets it! (http:// www.mrquery.com) – включает более 100 баз данных для поиска;
- оригинальная поисковая система Symbaloo (http://www.symbaloo.com);
- системы поисковой визуализации компании Quintura. Inc (интерактивные поисковые системы) (http://www.quintura.com, http://www.quintura.ru);
- каталоги «скрытых» ресурсов:
а) http://www.completeplanet.com – > 100 тыс. ссылок;
б) http://www.bighub.com;
в) http://www.invisible-web.net
г) http://www.dialog.com – более 700 тыс. пользователей, 900 баз данных, используется в 100 странах мира;
д) http://www.lexisnexis.com – содержит информацию для юристов, коммерческую информацию.
- Тема 1. Введение в электронную торговлю
- Сущность понятий «электронный бизнес», «электронная торговля» и «электронная коммерция»
- Стадии внедрения систем (моделей) электронной торговли
- Составляющие электронной торговли (участники, процессы, сети) и их краткая характеристика
- Системы цикла электронной торговли по д. Козье
- Контрольные вопросы к теме №1
- Тема 2. Преимущества электронной торговли по сравнению с традиционной
- Особенности подготовительного этапа электронной сделки
- Правовые аспекты электронной торговли
- Таким образом, среди основных преимуществэлектронной торговли по сравнению с традиционной можно выделить следующие:
- Контрольные вопросы к теме №2
- Тема 3. Поиск информации в интернете Поисковые системы как средство эффективного поиска информации в Сети
- Особенности поиска информации по каталогам
- Современные поисковые системы, каталоги и их характеристики
- 1. Поисковая система Google.Com
- Тема 4. Сайт как инструмент электронной торговли Веб-сайт как основа системы коммуникаций в Интернете.
- Блок-схема построения веб-сайта
- Функции и задачи веб-сайта
- Технические аспекты создания веб-сайта
- Информационное наполнение сайта
- Тема 5. Системы и формы электронной торговли
- Классификация систем электронной торговли
- Принципы построения систем электронной торговли
- Модели и организационные формы бизнес-процессов
- Электронные торговые площадки и их виды
- Интернет-магазины
- Интернет-банкинг