© Discript 2018 - 2025

Маски в файле Robots.txt: как правильно использовать

Когда мы говорим о продвижении сайта и контроле за его индексированием, очень часто возникает вопрос: как грамотно ограничить доступ поисковых роботов к определённым материалам? Один из инструментов, позволяющих это сделать, — файл robots.txt. Сегодня обсудим, что такое «маски» в robots.txt, в чём их польза и как правильно применять эти конструкции, чтобы не попасть впросак.

Что такое файл robots.txt и зачем он нужен

Файл robots.txt — своеобразный «светофор» для поисковых систем. Он даёт роботам инструкции, какие страницы, файлы или разделы сайта можно сканировать, а какие стоит обходить стороной. Представим, что у вас на сайте много служебных документов и изображения для внутренних нужд. Наверняка вы не хотите, чтобы они светились в поиске. Именно в robots.txt можно запретить роботам доступ к этим ресурсам.

Но, кроме банальных директив вида:

Disallow: /admin/

Disallow: /secret.html

у роботов есть возможность работать с так называемыми масками. И вот тут начинаются тонкости, о которых мало кто рассказывает простым языком.

Маски в robots.txt: что это и почему они так полезны

«Маска» — это способ одной строчкой закрыть сразу целую группу файлов или папок, которые похожи по имени или формату. Наиболее распространённый масочный символ — звёздочка (*). В большинстве случаев она означает «все возможные варианты символов и даже пробелы». То есть если у вас тысяча PDF-файлов в папке /documents/, вы можете легко закрыть их одной командой:

Disallow: /documents/*.pdf

И больше не нужно перечислять каждый файл по отдельности — экономия времени колоссальная, особенно когда документов очень много.


Почему это удобно

  • Массовое закрытие контента. Вы можете запретить доступ сразу к целой группе файлов по общему признаку (расширение, часть имени, расположение в папке и т.д.).
  • Легко менять настройки. Если завтра вы решите, что PDF всё же стоит разрешить, а DOC — запретить, достаточно будет подправить одну строчку вместо целого списка.

Примеры и разные варианты использования масок

Чтобы всё было наглядно, приведу несколько популярных вариантов, когда символ * действительно выручает.

  1. Закрытие всех файлов с определённым расширением

    Disallow: *.pdf

Если вы разместите такую строку где-то в начале файла robots.txt, то запретите индексировать все PDF-файлы на сайте, вне зависимости от их расположения.

  1. Закрытие файлов, начинающихся на конкретное слово

    Disallow: admin*.pdf

Актуально, когда все «админские» файлы у вас имеют в начале названия «admin». К примеру, admin-doc.pdf, admin123.pdf и т.д.

  1. Гибкие шаблоны для имен

    Disallow: a*m.pdf

Здесь запрещены к индексации все файлы, которые начинаются на «a», а заканчиваются на «m.pdf» — например, am.pdf, allm.pdf, applem.pdf.

И ещё один распространённый пример:

Disallow: /img/*.*

Такая строка закроет все файлы любого расширения в папке /img/, будь то .jpg, .png, .gif — не важно. Главное, что этот контент находится внутри /img/.

Обратите внимание: корректность работы масок может отличаться в зависимости от поисковой системы, ведь единый стандарт до конца не закреплён. Однако все крупные российские и мировые поисковики — такие как Яндекс или Google — давно научились понимать этот «расширенный» синтаксис.

Окончания правил и символ «$»

Иногда нужно закрыть доступ только к папке, а не ко всем одноимённым файлам и папкам на сайте. В этом случае на помощь приходит символ «$», который указывает, что правило применяется только к точному совпадению, без продолжения имени.

Допустим, мы хотим закрыть папку /wp-admin, но не файлы вроде /wp-admin.pdf или /wp-admin.html. Тогда в robots.txt прописываем:

Disallow: /wp-admin$

Здесь wp-admin и есть искомая «конечная точка» — никакие расширения, идущие за ней, учитываться не будут. Если же написать:

Disallow: /wp-admin

или

Disallow: /wp-admin*

то система закроет и папку /wp-admin, и любые файлы, начинающиеся с /wp-admin.

Распространённые ошибки при работе с масками

Как показывает практика, многие владельцы сайтов допускают одни и те же промахи, когда дело касается масок в robots.txt. Вот несколько примеров:

  1. Отсутствие слэша перед папкой. Например, пишут Disallow: admin/*.pdf вместо Disallow: /admin/*.pdf. Это может ввести робота в заблуждение, потому что путь должен указываться относительно корня сайта.
  2. Не там поставили *. Если вы помещаете звёздочку слишком рано или совсем в другом месте, вы рискуете закрыть либо слишком много, либо, наоборот, слишком мало.
  3. Использование пробелов перед или после *. В некоторых случаях пробелы могут интерпретироваться по-разному и приводить к непредсказуемому результату. Обычно стоит избегать подобных разрывов в директиве.
  4. Забывают, что маску не все поисковики могут понять одинаково. В идеале стоит перепроверять свои настройки через инструменты для веб-мастеров (например, «Яндекс.Вебмастер» или «Google Search Console»), чтобы убедиться, что роботы читают robots.txt так, как вы задумали.

Малоизвестные нюансы

  • Некоторые поисковики могут не поддерживать в полной мере все варианты «расширенного» синтаксиса. Поэтому, если вы ориентируетесь на узкоспециализированные системы, уточните их требования к robots.txt.
  • Уровень вложенности. Если вы используете несколько звездочек в одной строке (например, /*/images/*.png), следите, что вся цепочка действительно нужна. Зачастую бывает проще разбить директивы на несколько строк для наглядности.
  • Использование «Allow». Мало кто помнит, что есть и такая директива, которая, наоборот, разрешает индексацию внутри уже запрещённого раздела. Это бывает полезно, когда нужно закрыть всю папку /media/, кроме одной конкретной подпапки или файла.

Практические рекомендации

Перед тем как вносить правки в рабочий robots.txt, советую всегда делать бэкап исходного файла. Иногда одна неточная директива может закрыть индексирование всего сайта! Это может привести к серьёзным потерям в трафике и позициях в выдаче.

Чтобы проверить, как ваш robots.txt видят поисковики, используйте специальные инструменты:

  • В Яндексе — сервис «Проверка robots.txt» в «Яндекс.Вебмастере».
  • В Google — аналогичный инструмент «Настройка robots.txt» в «Google Search Console».

Перед и после внесения изменений заглядывайте туда и убедитесь, что новые директивы работают по плану.

Заключение

Маски в файле robots.txt — мощный и удобный инструмент, если хочется гибко контролировать, какие файлы и разделы сайта видят поисковые роботы. Стоит лишь правильно расставить символы * и, при необходимости, $ в нужных местах, чтобы одним махом закрыть целую группу ненужных страниц или файлов. В то же время важно не переусердствовать и не «запереть» от индексации то, что нужно пользователям и поисковым системам.

Подходите к настройкам робота осознанно: продумайте логику, перепроверьте пути и окончательные эффекты. И не бойтесь экспериментировать — главное, всегда иметь под рукой резервную копию и вовремя тестировать новые правила. Тогда работа с масками перестанет казаться чем-то сложным, а ваш файл robots.txt будет действительно помогать сайту развиваться и сохранять конфиденциальность там, где это необходимо.

Другие статьи

Отправьте заявку и уже завтра мы начнем работы.

Обязательное поле для заполнения

Обязательное поле для заполнения

Обязательное поле для заполнения

Обязательное поле

Обязательное поле для заполнения

Обязательное поле для заполнения

Обязательное поле

Спасибо за обращение!
В ближайшее время мы с вами свяжемся.

Далее

Обязательное поле для заполнения

Обязательное поле для заполнения

Укажите предпочтительные каналы связи:

ТелефонWhatsAppTelegram

Обязательное поле