Случайные записи в Твиттере

robots.txt

robots.txtCrawl-delay

Данная директива задает в секундах интервал времени (минимальны), который должен выждать робот после окончания закачки одной страницы сайта, чтобы начать качать новую страницу сайта.

 

Удобно применять чтобы избать массовой загрузки тысяч чтраниц пауками, что вызовет временную не очень работоспособность сайта (а вдруг все пауки разум откачивать сайт начнут. Всякое бывает)

robots.txtHost

Как говирит Яндекс

Если ваш сайт имеет зеркала, специальный робот зеркальщик определит их и сформирует группу зеркал вашего сайта. В поиске будет участвовать только главное зеркало. Вы можете указать его у всех зеркал при помощи robots.txt, используя директиву 'Host', определив в качестве ее параметра имя главного зеркала. Директива 'Host' не гарантирует выбор указанного главного зеркала, тем не менее, алгоритм при принятии решения учитывает ее с высоким приоритетом.

Пример:

robots.txt, sitemap, карта сайтаSitemap

Sitemap

Директива предназначена для подключения к сайту файла xml с картой сайта.

Это надо для  облегчения индексирования сайта поисковыми роботами.

Разместить ее можно в конце файла

Примерно так

Disallow: /?q=user/register/
Disallow: /?q=user/login/
#
#
Sitemap: http://www.vpcgranica.ru/sitemap.xml

robots.txtDisallow и Allow

User-agent: *

Disallow: / - блокирует роботу доступ к сайту

Disallow: /katalog  - блокирует роботу доступ к страницам, начинающимся с  katalog

Disallow: /katalog/  - блокирует роботу доступ к каталогу katalog  и внутрь него

 

Нельзя допускать пустых строк между 'User-agent' и 'Disallow' ('Allow'), между директивами 'Disallow' ('Allow') директивами.

Совместное использование директив разрешить и запретить

robots.txtUser-agent

User-agent

Данная  директива указывает каким роботам следует выполнять указания, которые следуют за ней

User-agent * - относится ко всем роботам.

Если директива не указана - робот будет считать что доступ к сайту не ограничен и он может считывать все, что только пожелает