© Discript 2018 - 2024

Технический аудит: анализ проблем индексации документов

Продолжаем цикл статей про технический аудит, и сегодня рассмотрим очень важную тему: анализ проблем индексации документов.

Выделим пять основных причин отсутствия страниц в индексе Яндекса (для Google аналогичные ситуации):

  1. Робот просто не знает о сайте или документе. Как правило, это характерно для молодых площадок или новых страниц;
  2. Присутствует техническая ошибка (неверная кодировка, обрыв соединения, неверное формирование URL, ошибка DNS и другие).
  3. Сайт получил фильтр от поисковых систем. Как правило, это бывает при использовании «серых» и «черных» способов продвижения. Однако ни один проект не застрахован от получения санкций;
  4. Страница низкого качества. Алгоритмы поисковой системы настроены таким образом, чтобы хорошо индексировать и высоко ранжировать качественные ресурсы, которые дают содержательные ответы на вопросы пользователей.
  5. Весь сайт или некоторые его страницы закрыты от индексирования в robots.txt.

Но прежде чем пытаться исправить проблемы, необходимо точно убедиться в том, что они есть.

Поиск проблем индексации

Сделать это можно при помощи следующих способов:

  1. Проверить сведения о сканировании в Яндекс.Вебмастер и Google Search Console.В Яндекс.Вебмастере необходимо перейти в раздел «Индексирование» — «Страницы в поиске»

    Далее мы попадаем в раздел «Страницы в поиске»:

    В данном разделе мы можем найти все страницы, которые имеют проблемы. Для этого в столбце “Статус и URL” указываем необходимый параметр:

    Таким образом мы можем видеть все страницы, имеющие проблемы с индексаций, о которых известно роботу Яндекса.В Google Search Console необходимо открыть раздел «Индекс» вкладку «Покрытие»:

    Перейдя на страницу покрытия, необходимо выбрать, какие проблемы отобразить: «Ошибка», «Без ошибок, есть предупреждения»,  «Страница без ошибок», «Исключено».

    После выбора требуемых проблем, под графиком появятся наблюдаемые ошибки. Перейдя на них, можно увидеть список страниц с данными ошибками.

    Здесь же можно найти последние изменения относительно появления ошибок за определенную дату. Данная информация позволяет оценить, как новые ошибки повлияли на динамику показов.

  2. Проверить индексацию страницы можно через поиск: В строке поиска Google можно ввести оператор «site:» с адресом вашего сайта. Тогда будут найдены все страницы. Это целесообразно в случае, если большинство продвигаемых документов не в индексе, т.е. когда возникнет вопрос, а есть что-то в индексе?Если же необходимо проверить индексацию конкретной страницы, то необходимо использовать полный URL. Таким же образом можно искать страницы отдельно по поддомену:Например: http://tools.discript.ru/yacache-check/

    В Яндексе необходимо использовать один из операторов: «site» (для поиска по всему сайту, включая поддомены), «host» (для поиска по всему сайту без учета поддоменов), «url» (для поиска по определенному адресу).

    Согласно статистике, существует ограничение на максимально число документов, которые будут показаны в индексе. Определенного значения нет, однако это следует учитывать при работе с большими сайтами. Например:Для сайта ozon.ru Яндекс выдает 113 тысяч результатов:

    Но на самом деле их значительно больше.Например, для сайта ozon.ru Google выдает более 8 миллионов страниц:

    И это уже намного ближе к реальности.Если же при использовании оператора site вашего сайта не будет в выдаче, нужно определить, почему это произошло.

  3. Проверить с помощью сервиса http://tools.discript.ru/yacache-check/. Инструмент позволяет проверить одновременно до 25 URL для незарегистрированных пользователей и до 100 URL для зарегистрированных.

Причины проблем с индексацией

Причина 1: Робот просто не знает о сайте или документе.

Поисковым системам необходимо время на обнаружение сайта (Google добавляет в индекс в режиме реального времени за 2-3 дня, а  Яндекс — примерно раз в 2 недели). При этом важно сообщить о сайте поисковикам, добавил его в панель Яндекс.Вебмастера или Google Search Console, подключив Яндекс.Метрику и установив ссылки с внешних источников. Например, если на сайте (или внешнем источнике) нет ссылок на страницу и в файле Sitemap также нет ссылки, то поисковик не узнает о новом документе нем.

Причина 2: Сайт находится под санкциями

Яндекс и Google исклюбают сайты из ранжирования за разные «правонарушения». Такие сайты попадают под санкции, и робот хоть и приходит их индексировать, но делает это гораздо реже. Как Яндекс, так и Google показывают уведомления о нарушениях в панелях Вебмастера только в том случае, если санкции применяются для всего сайта сразу. Для отдельных же его документов стоит ориентироваться на резкое падение трафика или снижение позиций по запросам.

Причина 3: Отдельные страницы или разделы показывают низкое качество

Иногда качество материала на сайте может быть настолько низким, что поисковики сразу его исключают из индекса. Для этого оснований у них может быть множество: неуникальный контент,

  • одинаковые заголовки,
  • слишком тяжелые изображения,
  • множественные дубли страниц (подробную информацию о дублях и сопутствующих проблемах можно получить в статье «Технический аудит: поиск дублей страниц») и т.д.

Некачественные страницы получают ограничения в ранжировании специальными алгоритмами. Эти ограничения могут влиять на индексирование и ранжирование сайта. Со всеми примерами не качественных страниц можно ознакомиться здесь: https://yandex.ru/support/webmaster/error-dictionary/

Причина 4: Присутствует техническая ошибка

Исправление некоторых технических параметров помогает улучшить индексацию сайта. Например, некорректные HTTP – заголовки, неверно указанная кодировка, нестабильная работа хостинга, много ошибок с кодом 3хх и 4хх (подробнее об этих ошибках в статье «Технический аудит: контроль битых ссылок») и т.д.

Весь перечень ошибок, возвращаемых роботом Яндекса в случае, если ему не удалось загрузить какой-либо документ с вашего сайта, можно посмотреть здесь: https://yandex.ru/support/webmaster/site-indexing/excluded-pages.html

Причина 5: Весь сайт или некоторые его страницы закрыты от индексирования.

Несмотря на то, что ряд страниц могут быть закрыты осознанно, часто встречается и ошибочное закрытие отдельных разделов, документов или целых сайтов в файле robots.txt.

Файл robots.txt – это текстовый файл, расположенный в корневом каталоге и содержащий указания по индексации страниц для роботов поисковых систем. В этом документе есть своя структура и директивы, и он выполняет своего рода функцию «фильтра». Проще говоря, при помощи robots.txt мы указываем, какие страницы сайта робот может сканировать, а какие – нет. Когда робот заходит на сайт, то в первую очередь он ищет именно этот файл. Проверить robots.txt можно при помощи:

  1. Инструмента проверки файла robots.txt: http://tools.discript.ru/robots-check/
  2. В Я.Вебмастере: http://webmaster.yandex.ru/robots.xml
  3. В Google Search Console: https://www.google.com/webmasters/tools/siteoverview?hl=ru

Подробная информация про robots.txt в статье «Работа с файлом robots.txt.» (еще не знаю, так ли он точно называться будет?

В ходе технического аудита выявляются все ошибки, которые мешают сайту или его отдельным страницам попадать в индекс. Иногда, наоборот, система включает в поиск ненужные страницы. Может показаться, что в этом нет ничего плохого, но на самом деле это не так. Во-первых, на лишних страницах пользователи не найдут никакой полезной информации. Во-вторых, поисковым роботам придется потратить намного больше времени, чтобы обойти весь сайт и вместо индексации полезного контента они будут просто блуждать по нему. И, в –третьих, индексация ненужных страниц сильно нагружает сервер. Кроме этого, попадание в индекс ненужных страниц может привести к понижению документов в выдаче.

В следующей статье рассмотрим подробно общие правила составления robots.txt, часто встречающиеся ошибки, а также способы проверки файла.

Другие статьи

Отправьте заявку и уже завтра мы начнем работы.

Обязательное поле для заполнения

Обязательное поле для заполнения

Обязательное поле для заполнения

Обязательное поле

Обязательное поле для заполнения

Обязательное поле для заполнения

Обязательное поле

Спасибо за обращение!
В ближайшее время мы с вами свяжемся.

Далее

Обязательное поле для заполнения

Обязательное поле для заполнения

Укажите предпочтительные каналы связи:

ТелефонWhatsAppTelegram

Обязательное поле