Стандарт исключения для поисковых систем
Все поисковые системы при индексации того или иного сайта берут информацию о разрешениях и запретах на включение в базу данных каких-либо директорий и отдельных html-документов из файла robots.txt, размещаемого Web-мастером в каталоге, отведенном на сервере для публикации вашего ресурса. Рекомендуется исключить из списка разрешенных для индексации объектов
директории, в которых размещаются интерактивные скрипты и лог-файлы, а также документы, помещение которых в базу данных поисковой системы вы не считаете нужным: чем меньше страниц серверу предстоит проиндексировать, тем быстрее пройдет процесс регистрации.
Общий формат записи директив в файле robots.txt выглядит следующим образом:
ПАРАМЕТР: ЗНАЧЕНИЕ
Символ пробела между полями «параметр» и «значение» является опциональным, то есть его можно опустить без каких-либо последствий. Формат записи в поле «параметр» регистронезависим, то есть серверу все равно, в заглавном или строчном регистре записана директива. Если строка в файле robots.txt начинается с символа «#», поисковый сервер игнорирует ее, воспринимая как комментарий.
В стандарте robots.txt (в отличие от стандартов HTML и CSS) пустые строки, не содержащие ни одного символа, считаются значащими: они отделяют друг от друга разделы описания допусков и запретов, предназначенных для различных поисковых машин.
Первой директивой файла robots.txt является параметр User-Agent. С него же должен начинаться каждый раздел данного файла, отделенный от других разделов пустой строкой. Значением этого параметра служит имя поискового робота, для которого вы устанавливаете права доступа. Если в одном блоке описаний вы хотите задать параметры для нескольких роботов, их имена надо перечислить через пробел. Если значением параметра User-Agent служит символ «*», то следующие далее директивы устанавливаются для всех поисковых систем, независимо от названия и территориальной принадлежности. Второй командой этого своеобразного макроязыка является директива DisalloW. Вместо ее значения следует подставить частичный URL документа или директории, не подлежащей индексации, причем записывать этот адрес следует согласно синтаксису обозначения структуры директорий на данном сервере. Например, запись DisalloW: /photos запрещает индексировать хранящийся в корневой директории сайта файл photos.html и расположенную там же директорию photos, а команда DisalloW: /photos/ — только саму директорию вместе совсем ее содержимым. Если значения команды DisalloW не указаны, поисковый сервер индексирует весь сайт целиком. С другой стороны, строка DisalloW: /,наоборот, запрещает индексировать данный ресурс — иными словами, вносить информацию о нем в базу данных поисковой системы.
Простые примеры листинга файла robots.txt приведены ниже. Пример 1.
#file-type: robots.txt for site http://WWW.mysite.ru
User-Agent: Yandex
DisalloW: /cgi-bin/
DisalloW: /private/myfolder/index
DisalloW: /images/
DisalloW: not_found.html
DisalloW: forbidden.html
User-Agent: AltaVista HotBot Cybermapper
DisalloW: /cgi-bin/
DisalloW: /private/
DisalloW: /hobbies/index.html
DisalloW: not_found.html
#End of file
Пример 2.
#file-type: robots.txt for site http://WWW.mysite.ru
User-Agent: *
DisalloW: /cgi-bin/
DisalloW: /private/
DisalloW: not_found.html
DisalloW: forbidden.html
#End of file
Учтите, что файл robots.txt не должен содержать пустых строк, если первой директивой после разрыва строки не является команда User-Agent, а также то, что стандарт исключения для роботов не предусматривает использования масок, содержащих символы «*» и «?». Например, запись DisalloW: /folder/*.html запрещает индексацию файлов не с расширением .html, а с именем *, которых просто не существует на сервере. Одна команда DisalloW должна содержать только одну ссылку на документ или файл, а для размещения нескольких ссылок надо использовать то же количество команд DisalloW. В качестве значения данной команды необходимо указывать относительные пути к файлам и директориям, но ни в коем случае не абсолютные. Иными словами, ссылку на серверную папку следует записывать в виде «/folder», но никак не в виде «http://WWW.mysite.ru/folder«.
Список поисковых систем
Относительно полный список российских и зарубежных поисковых систем, а также тематических каталогов, регистрация в которых может быть вам полезна, приведен в табл.3 .
Таблица 3. Поисковые машины и тематические каталоги
Название | URL |
Российские поисковые системы и каталоги | |
Яндекс Рамблер Апорт @Rus List.Ru СозвездиеИнтернет Russia On The Net MAFIA's TOP 100 ИванСусанин Улитка OMEN Золотой URL МЕГАПОРТАЛ HI LOOK ПИНГВИН Интернет-столица | http://WWW.уandex.ru http://WWW.rambler.ru http://WWW.aport.ru http://WWW.atrus.ru http://WWW.list.ru http://WWW.stars.ru http://WWW.ru http://WWW.mafia.ru http://WWW.susanin.net http://WWW.ulitka.ru http://WWW.omen.ru http://WWW.goldenurl.radio.ru http://WWW.megaportal.ru http://WWW.hi.ru http://WWW.look.ru http://pingWin.net.ru http://WWW.yes.ru |
Зарубежные поисковые системы и каталоги | |
AltaVista Yahoo! HotBot Infoseek WebcraWler Excite Inernet.ORG Lucos Opentext Pointcom Who Where | http://WWW.altavista.com http://WWW.yahoo.com http://WWW.hotbot.com http://guide.infoseek.com http://WWW.WebcraWler.com http://WWW.excite.com http://WWW.internet.org http://WWW.lucos.com http://WWW.opentext.com http://WWW.pbintcom.com http://WWW.WhoWhere.com |
- Часть 2
- Содержание Оглавление
- Глава12.Основные термины Интернет 122
- Краткий экскурс в теорию сетей
- 1.1Как появился Интернет
- 1.2 Система адресации в Интернете dns — доменная система имен
- Общие принципы создания Web-узла
- 2.1 Web-технология html
- 2.2.Браузеры
- 2.3.Сервер, сайт, домашняя страничка
- 2.4.Анатомия сервера
- Говорим по-русски. О кодировках кириллицы
- 3. Создание html - документов ,Web-страницы
- 3.1. Классификация html-редакторов.
- 3.1.1.Визуальные редакторы
- 3.1.2. Текстовые редакторы
- 4. Другие Web-технологии
- 4.1.Java
- 4.2. Cgi (Common GateWay Interface)
- 4.3. Ssi (Server Side Includes)
- 4.4. Css(Cascading Style Sheets)
- 4.5. Рнр (Personal Home Page tools)
- 4.6. Asp (Active Server Pages)
- 4.7. VbScript(Visual basic Script)
- 4.8. Macromedia Flash
- 4.9. Dhtml (Dynamic Hyper Text Markup Language
- 4.10. Xhtml и xml
- Web-дизайн
- 5.1 Что такое Web-дизайн?
- 5.2.Программы, используемые в web-мастеринге
- Технологии Web-дизайна
- 6.1. Структура узла web-сайта
- 6.1.1. Плоская структура
- 6.1.2. Линейная структура
- 6.1.3. Древовидная структура
- 6.1.4. Комбинированная структура
- 6.1.5. Принципы построения системы навигации
- 6.1.6. Организация домашней страницы
- 6.2. Логическая и физическая структура сайта
- 6.2.1. Заглавная страница
- Динамическая и статическая компоновка сайта
- 6.2.2. Статическая компоновка страницы
- 6.2.3.Динамическая компоновка страницы
- 6.2.4. Элементы Web-страницы
- 7. Планирование и реализация Web-сайта. Три этапа.
- 7.1. Этап определения объема работы. Переговоры с заказчиком. Создание концепцииWeb-узла. Обсуждение бюджета и плана работы. Подписание договора.
- 7.1.1. Работа с заказчиком
- 7.1.2. Создание концепции Web-узла
- 7.1.3. Бюджет исрокивыполнения проекта
- 7.1.4. Роли участников разработки
- 7.1.5. ПланированиеWeb-узла
- 7.1.6.Требования кWeb-узлу и составление графика выполнения работ
- 7.2. Этап разработки компонентовWeb-узла и связывание их между собой.
- 7.2.1. Разработка дизайна интерфейса
- 7.2.2. Компьютерная графика в Web-дизайне
- Графический формат gif
- Графический формат jpeg
- Графический формат png
- 7.3. Этап тестирования готовогоWeb-узла, обеспечение доступа к нему из глобальной сети и рекламирование узла.
- 7.3.1. Web-хостинг
- Путь первый. Бесплатный хостинг
- Путь второй. Хостинг у провайдера
- Путь третий. Платный хостинг
- Путь четвертый. Хостинг у знакомых
- 7.3.2. Маркетинг
- 7.3.3. Правила раскрутки сайта
- Регистрация в каталогах
- Индексация в поисковых системах
- 7.3.4. Обслуживание Web-страницы, сайта
- 7.3.5. Обновление информации и создание новых разделов
- 7.3.6. Регистрация в поисковых системах
- Подготовка к регистрации
- Регистрация сайта в поисковых системах
- Стандарт исключения для поисковых систем
- Контроль за состоянием учетной записи
- Использование рейтинговых счетчиков
- 8.Службы баннерного обмена
- Что такое баннер?
- Эффективность баннера
- Системы баннерного обмена
- Зарубежные баннерные сети.
- Текстовые баннеры
- Интерактивные баннеры
- Использование бесплатных досок объявлений
- Службы редиректа
- Сложный баннер
- 9. Основные принципы эффективного и стильного Web-сайта
- Основы стильногоWeb-сайта
- 6.3. ОсновныеправилаWeb-дизайна
- . Наиболее распространенные ошибки при создании сайта:
- Глава12.Основные термины Интернет