Студопедия

КАТЕГОРИИ:

АстрономияБиологияГеографияДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРиторикаСоциологияСпортСтроительствоТехнологияФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника


Robots.txt




Robots.txt — файл, предназначенный для роботов поисковых систем. В нем вебмастер может указать параметры индексирования своего сайта как для всех роботов сразу, так и для каждой поисковой системы по отдельности.

Три наиболее важных параметра, которые можно указать в этом файле:

Disallow.

Эта директива используется для запрета от индексирования отдельных разделов сайта. С ее помощью необходимо закрывать от индексирования технические и не представляющие ценности ни для пользователя, ни для поисковых систем страницы.

К ним относятся страницы с результатами поиска по сайту, статистика посещаемости сайта, дубликаты страниц, разнообразные логи, сервисные страницы баз данных и т.д. Подробнее о директиве disallow читайте в специальном разделе помощи (http://help.yandex.ru/webmaster/?id=996567 ), посвященной файлу robots.txt.

Crawl delay

Это параметр, позволяющий указать индексирующему роботу минимальный промежуток времени (в секундах) между обращениями к страницам сайта. Этот параметр полезен для крупных проектов, содержащих десятки тысяч страниц и более.

Поисковый робот Яндекса при индексировании может создать на такой сайт большую нагрузку, что может вызвать перебои в работе сайта и задержки в его работе, поэтому, возможно, вам следует ограничить количество обращений в секунду

В роботе Яндекса используется сессионный принцип работы, на каждую сессию формируется определенный пул страниц, которые планирует закачать робот.

Сессия начинается с закачки robots.txt сайта, если его нет, он не текстовый или на запрос робота возвращается HTTP-код отличный от '200', считается, что доступ роботу не ограничен.

В самом robots.txt проверяется наличие записей, начинающихся с 'User-agent:', в них ищутся подстроки 'Yandex', либо '*' (регистр значения не имеет), причем, если обнаружено 'User-agent: Yandex', директивы для 'User-agent: *' не учитываются.

Если записи 'User-agent: Yandex' и 'User-agent: *' отсутствуют, считается, что доступ роботу не ограничен.

Например, директива Crawl-delay: 2 укажет роботу, что он должен выжидать 2 секунды между обращениями к серверу.

Clean param.

Этот параметр нужен для указания поисковым роботам, какие cgi-параметры в адресе страницы следует считать незначащими. Иногда адреса страниц содержат идентификаторы сессий - формально страницы с разными идентификаторами различаются, однако их содержимое при этом одинаково.

Если таких страниц на сайте много, индексирующий робот может начать индексировать такие страницы, вместо того чтобы скачивать полезное содержимое. Распространенная ситуация параметр sid на форуме или в фотогалерее. Для того чтобы робот Яндекса считал cgi-параметр sid незначащим, нужно написать в robots.txt директиву вида:

Clean-param: sid /forum/viewtopic.php

Подробнее об использовании директивы clean param можно прочитать в разделе помощи http://help.yandex.ru/webmaster/?id=996567#1041216

Яндекс.Вебмастер позволяет просмотреть список проиндексированных URL с вашего сайта. Регулярно проверяйте его, так как даже небольшие ошибки в коде могут привести к значительному росту числа ненужных URL на сайте и могут увеличить нагрузку на сайт.


Поделиться:

Дата добавления: 2015-04-11; просмотров: 68; Мы поможем в написании вашей работы!; Нарушение авторских прав





lektsii.com - Лекции.Ком - 2014-2024 год. (0.006 сек.) Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав
Главная страница Случайная страница Контакты