Директива User-agent: примеры использования, роботы Яндекс и Google

Discript.ru
Блог
Директива User-agent: примеры использования, роботы Яндекс и Google

Директива User-agent в файле robots.txt играет ключевую роль в управлении индексацией сайта. Если вы когда-либо задумывались, как поисковым роботам «объяснить», что именно на сайте им разрешено просматривать, а что лучше оставить в стороне, то эта статья поможет разобраться во всех тонкостях. Ниже мы разберёмся, для чего нужна директива User-agent, почему её стоит прописывать в любом файле robots.txt, а также обсудим, как правильно указывать правила для роботов Яндекса и Google.

Зачем нужна директива User-agent

Все поисковые боты, заходя на сайт, в первую очередь обращаются к файлу robots.txt. Это своего рода «дорожная карта», которая подсказывает им, какие страницы и разделы стоит индексировать, а какие – пропустить. Директива User-agent указывает, для какого именно робота (или группы роботов) применяются следующие инструкции — например, Disallow, Allow и другие.

Представьте, что в одном доме живёт несколько квартирантов, и у каждого есть свои ключи, свои правила пользования общими помещениями. Так и в robots.txt: мы можем «выдать» разные правила разным ботам, в зависимости от их функционала и задач.

Общие принципы работы с директивой User-agent

Чтобы использовать директиву User-agent корректно, необходимо понимать несколько базовых моментов:

Указание конкретного бота: например, User-agent: YandexBot или User-agent: Googlebot. В этом случае правила будут действовать только для конкретного робота.
Указание группы ботов: например, User-agent: Yandex. Тогда под действие правил попадут все роботы Яндекса.
Указание User-agent: *: означает, что инструкции предназначены для всех роботов всех поисковых систем.

Если в файле не предусмотрена ни одна строка вида User-agent: имя-бота или хотя бы User-agent: *, поисковый робот решит, что для него не установлено никаких ограничений и будет индексировать сайт на своё усмотрение.

Пример простейшего файла robots.txt

Чтобы понять, как выглядит структура, давайте рассмотрим наиболее короткий пример:

User-agent: *

Disallow: /private/

Allow: /

В этом случае мы указали, что всем роботам запрещено индексировать раздел /private/, а всё остальное на сайте им просматривать можно. Достаточно всего одного блока, где сразу понятно, к кому и какие требования предъявляются.

Как добавить несколько различных правил

Но что, если вы хотите по-разному управлять поведением роботов Яндекса и Google? Тогда можно прописать несколько блоков с директивами User-agent. Например:

User-agent: Yandex

Disallow: /*utm_

User-agent: Googlebot

Disallow: /*utm_

User-agent: *

Allow: /*utm_

В этом случае:

Все роботы Яндекса не будут индексировать страницы, где в URL содержится «utm_» (часто используется в ссылках с метками).
Для основного робота Google (Googlebot) действует то же самое ограничение.
А вот всем остальным роботам, наоборот, разрешено индексировать такие страницы.

Обратите внимание: между User-agent и последующими директивами (например, Disallow и Allow) не должно быть пустых строк. Иначе поисковый бот может «запутаться», и правила окажутся неправильно прочитанными.

Распространённые ошибки при работе с директивой User-agent

Перед тем как переходить к «экзотическим» настройкам, важно убедиться, что ваш файл robots.txt не содержит базовых ошибок. Вот список типичных проблем:

Пустые строки между User-agent и командами: многие новички делают отступы для удобства чтения. Но некоторые поисковики могут интерпретировать эту пустую строку как начало нового блока, из-за чего часть ограничений не применится.
Повторяющиеся блоки для одного и того же робота: иногда вебмастера случайно копируют один и тот же набор инструкций дважды. Это может вызывать путаницу и некорректное поведение роботов.
Неверное название бота: если вы указали User-agent: YandexBot, но при этом неправильно написали название (скажем, YndexBot или Yandexbot без заглавной буквы «B»), бот может проигнорировать такой блок.
Отсутствие общего блока User-agent: *: если вы забыли указать правила для всех роботов, а прописали только для конкретных ботов, другие поисковики будут чувствовать себя «свободно», что не всегда желательно.

Всегда проверяйте свой файл robots.txt через инструменты вебмастеров от Яндекса или Google, чтобы убедиться, что всё работает так, как вы задумали.

Роботы Яндекса и особенности работы с ними

У Яндекса есть много роботов, каждый из которых решает свою задачу. Хотя большинство вебмастеров ограничиваются настройками для основного робота YandexBot, бывают случаи, когда важно учесть и остальных. Например, если вы не хотите, чтобы робот, отвечающий за рекламу, сканировал определённые разделы сайта.

Ниже приводятся некоторые публичные боты Яндекса и их задачи:

YandexBot – основной робот, индексирующий сайт для органической выдачи.
YandexDirect и YandexDirectDyn – боты, оценивающие страницы для показов контекстной рекламы.
YandexImages – сканирует картинки и формирует результаты поиска по изображениям.
YandexMetrika – выполняет анализ сайтов для сервиса Яндекс.Метрика.
YandexNews – агрегирует контент для сервиса «Яндекс.Новости».

Этих роботов можно указать в файле robots.txt по отдельности, если требуется настроить разные правила. Например, вы можете разрешать основному роботу (YandexBot) индексировать всё, а для бота YandexImages закрыть отдельные папки с графическими материалами.

Роботы Google и их ключевые функции

Google также предлагает целую армию роботов, специализирующихся на разных типах контента. Помимо основного Googlebot, который отвечает за общую индексацию, есть и более «узкие» специалисты:

Googlebot-Image – занимается изображениями.
Googlebot-Video – сканирует видеоконтент и добавляет его в поисковую выдачу Google.
AdsBot-Google – проверяет качество посадочных страниц, оценивает скорость загрузки и релевантность. Влияет на размещение контекстной рекламы.
Mediapartners-Google – бот контекстной рекламы, индексирующий страницы для Google AdSense.

Если вы, например, не хотите, чтобы видеоконтент сайта отображался в Google Поиске по видео, можно добавить особую директиву User-agent: Googlebot-Video и закрыть для него необходимые страницы.

Практические советы по настройке robots.txt

Перед тем как редактировать или создавать файл robots.txt, полезно держать в уме несколько рекомендаций:

Начинайте настройку с User-agent: *. Всегда указывайте общие правила, чтобы случайно не пустить на сайт бота, о котором вы не подумали.
Только потом добавляйте индивидуальные блоки. Если возникла необходимость выделить конкретного робота (например, YandexBot), разместите соответствующий блок отдельно.
Не перегружайте robots.txt. Если в нём будет слишком много запутанных правил, их сложнее поддерживать в будущем, а ботам — сложнее корректно интерпретировать.
Регулярно проверяйте логи сервера. Это поможет понять, как боты на самом деле обходят сайт, и действительно ли они соблюдают указанные вами правила.
Используйте инструменты вебмастеров. Yandex.Webmaster и Google Search Console позволяют проверить правильность robots.txt, посмотреть, какие URL проиндексированы, и увидеть возможные проблемы.

Итоги

Директива User-agent — это настоящий «главнокомандующий» в файле robots.txt. С её помощью вы можете тонко регулировать, какие разделы и страницы сайта доступны для индексации каждым роботом Яндекса или Google. Грамотная настройка позволит избежать некорректного отображения сайта в поисковике и убережёт важные внутренние страницы от нежелательных визитов роботов.

Главное — соблюдать аккуратность, не оставлять пустые строки между директивами и внимательно проверять названия ботов. Если что-то пошло не так, всегда есть инструменты диагностики, помогающие вовремя отследить ошибку. А комбинируя возможности директив Disallow, Allow и указывая различные User-agent, вы сможете задать практически любые правила для разных поисковых систем и их сервисов.