Директива Clean-param для Яндекса: как правильно использовать и зачем она нужна

Discript.ru
Блог
Директива Clean-param для Яндекса: как правильно использовать и зачем она нужна

Если у вас на сайте есть страницы с разными параметрами в адресной строке, но фактически одинаковым содержимым, это может создавать так называемые дубли. Пример — несколько ссылок на одну и ту же страницу, но с добавлением UTM-меток или каких-то технических параметров (?sessionid, ?sort, ?sid и т. п.). Поисковые системы зачастую видят такие адреса как несколько отдельных страниц, в результате чего:

Теряется часть ссылочного веса: каждая “лишняя” ссылка индексируется отдельно, а эффект от внешних и внутренних ссылок рассеивается.
Робот тратит свой краулинговый ресурс на ненужные проверки дублей.
В индексе могут появляться копии, что негативно влияет на ранжирование.

Для Яндекса существует особый способ борьбы с дублями — директива Clean-param. Ниже я расскажу простыми словами, что это такое, почему Clean-param настолько полезна и как её грамотно прописать в файле robots.txt, чтобы облегчить работу поисковому роботу и улучшить SEO-показатели сайта.

Что такое директива Clean-param

Clean-param — это инструкция для робота Яндекса, которую вы указываете в файле robots.txt, чтобы сообщить, какие GET-параметры в URL не влияют на уникальность или содержимое страницы. Проще говоря, вы даёте понять Яндексу: «Если в адресе встречаются вот такие параметры, то не считай их критичными. Индексируй и учитывай страницу без учёта этих значений».

Пример:

http://example.ru/page?uid=1234
http://example.ru/page?uid=5678
Если оба адреса ведут на один и тот же контент, можно указать в Clean-param, что параметр uid не влияет на содержание. Тогда Яндекс будет рассматривать оба адреса как одну страницу.

Зачем нужна Clean-param

Если не настроить игнорирование параметров, связанных только с аналитикой, сессиями, сортировкой и т. п., может произойти «раздувание» количества страниц. Это вредит сайту так:

Падение релевантности. Поисковик не всегда понимает, какой из дублей показывать выше в выдаче, и может занизить рейтинг всех вариантов.
Избыточная нагрузка на сервер. Робот будет исследовать каждый вариант URL вместо того, чтобы сосредоточиться на действительно важных страницах.
Потери краулингового бюджета. Вместо эффективного обхода ключевых разделов сайта робот отвлекается на дубли.

Когда правильно настроен файл robots.txt и учтены параметры через Clean-param, Яндекс понимает, что стоит индексировать только основную версию страницы. Это ощутимо ускоряет процесс обхода, снижает нагрузку на сервер и помогает избежать появления дублей в поисковой выдаче.

Как работает Clean-param

В файле robots.txt директива задаётся примерно так:

Clean-param: параметр1[&параметр2...&параметрN] [путь]

параметр1[&...&параметрN] — это список параметров, которые вы хотите исключить из учёта при индексации.
[путь] — (необязательное поле) префикс URL, для которых эти параметры не учитываются.

Если путь не указан, правило распространяется на все страницы сайта.

Важно: Яндекс поддерживает Clean-param только в том случае, если указать в директиве User-agent робота Яндекса (или User-agent: *, если вы хотите задать общее правило для всех роботов, но на практике именно Яндексу нужны эти указания). Однако остальные поисковые системы (например, Google) директиву Clean-param не понимают, у них для борьбы с дублями используются другие инструменты.

Подготовка к настройке: определяем лишние параметры

Прежде чем прописывать Clean-param, стоит выяснить, какие параметры на вашем сайте действительно не влияют на содержание. Например, нередко встречаются следующие типы «лишних» параметров:

Идентификаторы пользователей. Они нужны лишь для сессий, персонификации, статистики.
Параметры аналитики — UTM-метки, ref и т. п.
Параметры сортировки (sort, order, view), если отображаемый контент остаётся тем же, а меняется только порядок элементов или внешний вид.
Внутренние технические параметры вроде s, sid, session, если они не меняют контент.

Чтобы найти подобные параметры, удобно посмотреть в логи, отчёты аналитики или вспомнить, какие ссылки формирует ваш движок (CMS), CRM и сторонние сервисы.

Пример использования директивы

Предположим, у вас есть интернет-магазин. На одной странице каталога используются параметры для сортировки:

https://shop.ru/catalog/sumki/?sort=price&order=asc

https://shop.ru/catalog/sumki/?sort=price&order=desc

https://shop.ru/catalog/sumki/?sort=name&order=asc

По сути, содержание одно и то же — список товаров «Сумки», только по-разному упорядоченный. Чтобы Яндекс не индексировал эти страницы как разные, достаточно указать:

User-agent: Yandex

Disallow:

Clean-param: sort&order /catalog/sumki/

И после этого робот Яндекса поймёт, что sort и order не влияют на уникальность этой конкретной страницы. Индексироваться будет основная версия — https://shop.ru/catalog/sumki/.

Можно ли использовать Clean-param совместно с тегами canonical?

Да, использование директивы Clean-param в robots.txt и тега canonical на страницах не противоречит друг другу — эти методы могут работать вместе без конфликта.

Clean-param говорит роботу Яндекса не учитывать определённые параметры в URL, которые не влияют на уникальность контента. Это помогает сократить количество дублей при индексировании и экономит краулинговый бюджет именно для Яндекса.

Тег canonical (который указывается в коде страницы) служит общим стандартом для всех поисковых систем. Он подсказывает, какая страница считается «основной», если есть несколько адресов с идентичным или очень похожим содержанием.

В идеале стоит настроить оба инструмента так, чтобы они указывали на одну и ту же «главную» версию URL. При этом надо внимательно проверить, чтобы:

В Clean-param прописаны только те параметры, которые действительно не влияют на контент.
В теге canonical указан URL без параметров (или только с нужными).

Так поисковые роботы (включая и Яндекс, и Google, и другие) получат чёткий сигнал о том, какая страница является канонической, а какие параметры можно игнорировать.

Несколько советов по формированию директивы

Не путайте регистры: параметр SORT отличается от sort. Указывайте точное написание.
Следите за длиной: у директивы Clean-param есть ограничение — до 500 символов. Если параметров много, разбивайте их на несколько строк.
Можно прописать несколько Clean-param: одно правило для UTM-меток, другое — для параметров сессий. Яндекс учтёт все директивы, указанные в robots.txt.

Используйте префиксы: если требуется ограничить действие директивы только на часть сайта, добавляйте уточнение пути. Пример:

Clean-param: utm_source&utm_medium /blog/

Тогда параметры будут игнорироваться только в разделе /blog/.

Частые ошибки и как их избежать

Прежде чем публиковать изменения в файле robots.txt, убедитесь, что вы:

Не скрыли нужные параметры. Если параметр действительно меняет содержимое (например, переключает вид товаров с «списка» на «плитку» или открывает другой регион), не указывайте его в Clean-param.
Проверили совместимость с другими настройками. Иногда правила Disallow пересекаются с Clean-param, из-за чего страница может вовсе исключиться из обхода. Будьте аккуратны.
Используете синтаксис без ошибок. Пропущенные амперсанды, неверный регистр или некорректный путь с особыми символами могут свести на нет эффект директивы.

Заключение

Директива Clean-param — незаменимый инструмент для оптимизации индексации сайтов в Яндексе. Она помогает избежать множества проблем с дублями, рационально использовать краулинговый бюджет и упрощает жизнь SEO-специалистам, владельцам сайтов и контент-менеджерам.

Если на вашем ресурсе действительно есть повторяющиеся страницы, отличающиеся лишь «пустышками» в виде идентификаторов, сессий или UTM-меток, обязательно настройте Clean-param в файле robots.txt. Подобные мелочи могут существенно повлиять на результаты в поисковой выдаче и скорость работы сайта, так что не откладывайте эту задачу на потом. Удачи в оптимизации!