X

410 vs 404 — как оптимизировать краулинговый бюджет

Проверим гипотезу в том, что удаленные URL-адреса, возвращающие код ответа 410:

  • будут сканироваться реже,
  • удаляться из индекса быстрее,

чем страницы, которые отдают 404 код.

При разработке и технической поддержке сайта необходимо принять решение о том, как лучше поступать со страницами, которые устарели и должны быть удалены. Существует несколько способов реализации данной задачи:

  • Код ошибки HTTP 410 указывает, что целевая страница была окончательно удалена (без переадресации), то есть больше недоступна на сервере.
  • В свою очередь код ответа 404 может быть вызван временной ошибкой, указывающий на ограничение доступа к серверу.

В одном из своих постов в социальных сетях специалист Google Джон Мюллер (John Mueller) заявлял, что ответ 410 может привести к более быстрому удалению страниц из индекса, также они будут реже сканироваться роботом в будущем.

Для небольших проектов разница в несколько дней, при переобходе страниц, не является существенным сигналом при выборе способа реализации удаления URL-ов.

В свою очередь, если вы следите за краулинговым бюджетом, даже незначительная оптимизация будет иметь вес.

Краулинговый бюджет — это лимит, который выделяется каждому сайту на сканирование. То есть это ограничение числа страниц, которые поисковой робот может проиндексировать в заданный временной промежуток.

Агентство цифрового маркетинга «REBOOT» (Лондон) провело исследование на этот счет.

Гипотеза

Удаленные URL-адреса с кодом ответа 410, будут сканироваться реже и удаляться из индекса Google быстрее, чем те страницы, которые возвращают 404 ошибку.

Методология

  1. Определить 2 тестовых сайта с активными проиндексированными URL-адресами.
  2. Получить доступ к файлам журналов и архивировать их.
  3. Используя API консоли поиска Google, настроить ежечасные проверки. Выяснить, индексируются ли исследуемые страницы, и когда Google последний раз их сканировал.
  4. Просканировать тестовые сайты и определить проиндексированные URL-адреса, не имеющие внешних ссылок.
  5. Из проиндексированных страниц без внешних ссылок выбрать те, у которых вообще нет внутренних ссылок, или URL-адреса с постоянными внутренними ссылками, которые можно сравнивать.
  6. Установить на половину ответ — 404, а другую половину — 410.
  7. Зафиксировать, как часто Google повторно сканирует различные URL-адреса.
  8. Зафиксировать, как быстро URL-адреса больше не индексируются.
  9. Сравните данные.

Скорость сканирования может различаться в зависимости от многих факторов, поэтому необходимо минимизировать сторонние переменные.

Минимизация внешних факторов

Внешние ссылки

Один из основных способов, с помощью которого Google находит контент для сканирования — это переход по ссылкам, найденным в документе.

Сайты с большим количеством внешних обратных ссылок будут сканироваться чаще, особенно если эти обратные ссылки приходят с часто сканируемых сайтов.

Чтобы свести к минимуму влияние внешних ссылок, для проведения эксперимента были подобраны страницы, на которые на момент проверки не было внешних ссылок.

Внутренние ссылки

Объяснение в данном случае аналогично предыдущему фактору. По этой причине «REBOOT» выделили страницы, на которых либо вообще не было внутренних ссылок, либо были одни и те же внутренние ссылки.

Постоянная среда

В период тестирования с исследуемыми сайтами не проводили никаких манипуляций. Любое функциональное\нефункциональное изменение может привести к изменению в сканировании роботом Google.

Учет предыдущих данных

Важно выяснить, есть ли какие-либо различия в скорости сканирования до момента запуска теста.

Результаты

После 3-х месяцев эксперимента «REBOOT» проанализировали логи данных более чем в 350 000 строк и предоставили отчет. Из него следует:

Анализ данных API консоли поиска Google на выборке из 119 тестовых веб-страниц показал, что страницы 404 в среднем сканировались на 49,6% чаще, чем страницы 410.

Также исследователи сравнили результаты, разбив примеры страниц по количеству внутренних ссылок:

Комментарий по поводу данного исследования предоставил Кевин Индиг (SEO Shopify и ведущий подкаста Tech Bound):

«410 обрабатываются как 301, а 404 — как 302. Google чаще сканирует 404, потому что ожидает, что страница снова превратится в 200 или 410»

Таким образом можем предположить, если вы хотите, чтобы Google повторно сканировал удаленный URL-адрес как можно реже, вам следует использовать код ответа 410 вместо кода 404.

2
Алексей (Основатель Gogetlinks): Алексей Кураков - руководитель Gogetlinks, более 8 лет занимается разработкой и управлением интернет-проектами. С 2007 года профессионально работает в сфере SEO.

View Comments (2)

  • Доброго дня!!!Если бы ещё знать,как работать с этими ссылками.Я просто создал сайт,а как его продвигать и монетизировать-это дремучий лес.Ничего не понимаю

    • Добрый день. Мы можем посоветовать надежных seo специалистов из числа наших пользователей. Если возникнет необходимость в привлечении сторонних исполнителей, напишите в техническую поддержку, постараемся вам помочь.