Руководство по использованию robots.txt

Цель этого руководства – помочь веб-мастерам и администраторам в использовании robots.txt.


Зто не спецификация – подробное описание и синтаксис можно посмотреть в стандарте исключений для роботов.


Введение

Стандарт исключений для роботов по сути своей очень прост. Вкратце, это работает следующим образом:

Когда робот, соблюдающий стандарт заходит на сайт, он прежде всего запрашивает файл с названием «/robots.txt». Если такой файл найден, Робот ищет в нем инструкции, запрещающие индексировать некоторые части сайта.

На сайте может быть только один файл «/robots.txt». Например, не следует помещать файл robots.txt в пользовательские поддиректории – все равно роботы не будут их там искать. Если вы хотите иметь возможность создавать файлы robots.txt в поддиректориях, то вам нужен способ программно собирать их в один файл robots.txt, расположенный в корне сайта. Вместо этого можно использовать Мета-тег Robots.

Что писать в файл robots.txt

В файл robots.txt обычно пишут нечто вроде:

    User-agent: *
    Disallow: /cgi-bin/
    Disallow: /tmp/
    Disallow: /~joe/

В этом примере запрещена индексация трех директорий.

Затметьте, что каждая директория указана на отдельной строке – нельзя написать «Disallow: /cgi-bin/ /tmp/». Нельзя также разбивать одну инструкцию Disallow или User-agent на несколько строк, т.к. перенос строки используется для отделения инструкций друг от друга.

Регулярные выражения и символы подстановки так же нельзя использовать. «Звездочка» (*) в инструкции User-agent означает «любой робот». Инструкции вида «Disallow: *.gif» или «User-agent: Ya*» не поддерживаются.

Конкретные инструкции в robots.txt зависят от вашего сайта и того, что вы захотите закрыть от индексации. Вот несколько примеров:


Запретить весь сайт для индексации всеми роботами

    User-agent: *
    Disallow: /

Разрешить всем роботам индексировать весь сайт

    User-agent: *
    Disallow:

Или можете просто создать пустой файл «/robots.txt».


Закрыть от индексации только несколько каталогов

    User-agent: *
    Disallow: /cgi-bin/
    Disallow: /tmp/
    Disallow: /private/

Запретить индексацию сайта только для одного робота

    User-agent: BadBot
    Disallow: /

Разрешить индексацию сайта одному роботу и запретить всем остальным

    User-agent: Yandex
    Disallow:

    User-agent: *
    Disallow: /

Запретить к индексации все файлы кроме одного

Это довольно непросто, т.к. не существует инструкции “Allow”. Вместо этого можно переместить все файлы кроме того, который вы хотите разрешить к индексации в поддиректорию и запретить ее индексацию:

    User-agent: *
    Disallow: /docs/

Либо вы можете запретить все запрещенные к индексации файлы:

    User-agent: *
    Disallow: /private.html
    Disallow: /foo.html
    Disallow: /bar.html