Директивы Robots.txt: зачем нужны и как с ними работать

Discript.ru
Блог
Директивы Robots.txt: зачем нужны и как с ними работать

Файл robots.txt — это небольшая инструкция для поисковых роботов, которая помогает регулировать процесс индексации сайта. При посещении вашего сайта поисковый бот (например, от Яндекса или Google) обычно первым делом проверяет именно файл robots.txt, чтобы узнать, какие страницы ему можно или нельзя сканировать. Благодаря правильной настройке директив в этом файле вы можете улучшить SEO и обезопасить чувствительные разделы сайта от лишнего внимания поисковых машин.

В этой статье разберёмся, что такое директивы robots.txt, какие они бывают и как их грамотно использовать.

Что такое директивы Robots.txt

По сути, директивы — это команды, которые вы даёте поисковым роботам. Каждая директива формулирует определённое правило:

разрешение к индексации (Allow),
запрет (Disallow),
указание на основное зеркало (Host),
путь к карте сайта (Sitemap) и так далее.

Сами команды прописываются в тексте файла robots.txt, который размещается в корневой директории сайта. Без лишних «украшений» — это простой текстовый документ. Его адрес обычно выглядит так:

https://ваш-сайт.ru/robots.txt

Если указать директивы неграмотно или пропустить важные моменты, поисковые роботы могут проигнорировать важные страницы или, наоборот, залезть туда, куда не следует. Поэтому стоит уделить robots.txt пристальное внимание.

Основные директивы и их особенности

Важно понимать, что каждая директива решает свою задачу и должна быть прописана чётко и в правильном порядке. Ниже рассмотрим самые распространённые команды, которыми вы, скорее всего, будете пользоваться.

User-agent

Эта директива сообщает, какому поисковому роботу адресован блок правил. После неё обычно ставят двоеточие и указывают название бота. Например:

User-agent: YandexBot

Disallow: /admin/

Если вы хотите задать общие правила для всех роботов, можно использовать звёздочку:

User-agent: *

Disallow: /admin/

Проблема у многих новичков возникает в том, что они либо забывают прописывать User-agent, либо ставят неправильные названия ботов. Проверить корректное название робота для нужного поисковика можно в официальной справке (например, у Яндекса в разделе «Помощь вебмастерам»).

Disallow

Директива запрещает сканировать определённые разделы или файлы на сайте. Это может быть удобно для скрытия административных файлов, конфиденциальных документов или дубликатов контента. Пример:

User-agent: *

Disallow: /admin/

Disallow: /tmp/

Главная ошибка — путать «запрет на индексацию» с «защитой страницы». Помните, что наличие Disallow не делает страницу невидимой в интернете: человек, имея прямую ссылку, может на неё попасть, а в некоторых случаях поисковики могут всё равно показывать URL без описания. Если нужно надёжно закрыть контент, следует подумать об аутентификации или других методах защиты.

Allow

Эта директива разрешает доступ к определённым разделам сайта. Чаще встречается, когда вы сначала указываете запрет Disallow на часть каталога, а потом через Allow разрешаете сканировать лишь отдельные подпапки. Например, такой сценарий бывает, когда внутри приватной директории есть несколько публичных файлов. Пример:

User-agent: *

Disallow: /private/

Allow: /private/public-file.html

Всё, что запрещено Disallow, бот индексировать не будет, но Allow может «вычленять» некоторые нужные файлы или папки из этого запрета.

Crawl-delay

Эта директива регулирует скорость, с которой поисковый робот будет обращаться к сайту. Для некоторых проектов с ограниченными ресурсами сервера это может быть актуально. Вы задаёте временной интервал в секундах, который робот будет ждать между запросами. Например:

User-agent: YandexBot

Crawl-delay: 5

Однако не все поисковые системы поддерживают Crawl-delay. Google, например, больше ориентируется на Google Search Console, где можно задать скорость сканирования напрямую. Но для Яндекса эта директива полезна, если нужно распределить нагрузку на сервер.

Sitemap

Эта директива указывает путь к файлу карты сайта (sitemap.xml). Благодаря ей поисковые роботы быстрее понимают структуру ресурсов и обнаруживают новые или обновлённые страницы. Пример:

User-agent: *

Allow: /

Sitemap: https://example.ru/sitemap.xml

Всегда старайтесь прописывать Sitemap, даже если думаете, что поисковики автоматически её найдут (часто они действительно находят карту сами). Явное указание упрощает жизнь и боту, и вам.

Host (неактуально)

Это директива, которая использовалась, чтобы указать основное зеркало сайта. Это особенно важно, если у сайта есть несколько зеркал с www и без, либо на разных доменах. Пример:

Host: example.ru

Обратите внимание, что Host обрабатывался только Яндексом, но после 2018 года перестал учитывать данную директиву. Google её и так игнорировал: для учёта зеркал в Google используется настройка в Search Console.

Пример файла robots.txt

Ниже приведён пример «комплексного» файла robots.txt, который вы можете адаптировать под себя. Здесь заданы базовые правила, закрыты некоторые служебные папки и указана карта сайта.

User-agent: *

Disallow: /admin/

Disallow: /scripts/

Allow: /public/

Crawl-delay: 5

Sitemap: https://example.ru/sitemap.xml

Если у вас есть специфические требования для определённых поисковиков (например, прописать разные Crawl-delay для Яндекса и Google), придётся выделять для каждого свою секцию:

User-agent: YandexBot

Disallow: /private/

Crawl-delay: 5

User-agent: Googlebot

Disallow: /private/

Практические советы и распространённые ошибки

Перед тем как перейти к списку советов, отметим, что robots.txt не всесильный документ. Он лишь даёт «рекомендации» поисковому роботу, а не защищает вашу информацию на 100%. При этом, если правильно прописать директивы, проблем с дубликатами страниц и лишней индексацией в большинстве случаев можно избежать.

Вот что стоит запомнить:

Не прячьте важные страницы. Случайно указанный Disallow: /catalog/ может «убить» всю индексацию товаров.
Учитывайте регистр. В пути к файлам и директориям /Catalog/ и /catalog/ могут восприниматься как разные (на серверах Linux это критично).
Не путайте защиту сайта и robots.txt. Для реальной защиты используйте пароли и другие методы. Disallow не скроет секретную информацию, если её URL уже где-то опубликован.
Указывайте Sitemap. Эта директива упрощает работу поисковым роботам.
Проверяйте файл на наличие ошибок. Для этого можно воспользоваться инструментами вроде «Яндекс.Вебмастер» или Google Search Console — они сообщат, если в файле есть синтаксические ошибки или конфликтующие директивы.

После того как вы примените эти советы, гораздо меньше шансов на то, что поисковики будут индексировать что-то лишнее или пропускать важные страницы.

Итоги

Директивы в robots.txt — это мощный, но при этом достаточно простой в настройке инструмент управления индексацией. Грамотно определив, какие страницы и разделы сайта можно показывать поисковым роботам, вы сможете минимизировать технические ошибки и сконцентрировать внимание поисковиков на главном.

Не забывайте время от времени возвращаться к файлу robots.txt и обновлять его вместе с развитием сайта. Новые разделы, смена адресов, появление дублей — всё это повод снова заглянуть в файл и проверить, не нужна ли корректировка. При должном внимании robots.txt станет надёжным помощником в деле грамотного SEO-продвижения.

Директивы Robots.txt: зачем нужны и как с ними работать

Что такое директивы Robots.txt

Основные директивы и их особенности

Пример файла robots.txt

Практические советы и распространённые ошибки

Итоги

Другие статьи

Вайб кодинг: новое поколение программирования

Видимость в поисковых системах: как анализировать и подняться выше

Как настроить файл robots.txt для Tilda

Как настроить файл robots.txt для Bitrix