Проверим гипотезу в том, что удаленные URL-адреса, возвращающие код ответа 410:
- будут сканироваться реже,
- удаляться из индекса быстрее,
чем страницы, которые отдают 404 код.
При разработке и технической поддержке сайта необходимо принять решение о том, как лучше поступать со страницами, которые устарели и должны быть удалены. Существует несколько способов реализации данной задачи:
- Код ошибки HTTP 410 указывает, что целевая страница была окончательно удалена (без переадресации), то есть больше недоступна на сервере.
- В свою очередь код ответа 404 может быть вызван временной ошибкой, указывающий на ограничение доступа к серверу.
В одном из своих постов в социальных сетях специалист Google Джон Мюллер (John Mueller) заявлял, что ответ 410 может привести к более быстрому удалению страниц из индекса, также они будут реже сканироваться роботом в будущем.
Для небольших проектов разница в несколько дней, при переобходе страниц, не является существенным сигналом при выборе способа реализации удаления URL-ов.
В свою очередь, если вы следите за краулинговым бюджетом, даже незначительная оптимизация будет иметь вес.
Краулинговый бюджет — это лимит, который выделяется каждому сайту на сканирование. То есть это ограничение числа страниц, которые поисковой робот может проиндексировать в заданный временной промежуток.
Агентство цифрового маркетинга «REBOOT» (Лондон) провело исследование на этот счет.
Гипотеза
Удаленные URL-адреса с кодом ответа 410, будут сканироваться реже и удаляться из индекса Google быстрее, чем те страницы, которые возвращают 404 ошибку.
Методология
- Определить 2 тестовых сайта с активными проиндексированными URL-адресами.
- Получить доступ к файлам журналов и архивировать их.
- Используя API консоли поиска Google, настроить ежечасные проверки. Выяснить, индексируются ли исследуемые страницы, и когда Google последний раз их сканировал.
- Просканировать тестовые сайты и определить проиндексированные URL-адреса, не имеющие внешних ссылок.
- Из проиндексированных страниц без внешних ссылок выбрать те, у которых вообще нет внутренних ссылок, или URL-адреса с постоянными внутренними ссылками, которые можно сравнивать.
- Установить на половину ответ — 404, а другую половину — 410.
- Зафиксировать, как часто Google повторно сканирует различные URL-адреса.
- Зафиксировать, как быстро URL-адреса больше не индексируются.
- Сравните данные.
Скорость сканирования может различаться в зависимости от многих факторов, поэтому необходимо минимизировать сторонние переменные.
Минимизация внешних факторов
Внешние ссылки
Один из основных способов, с помощью которого Google находит контент для сканирования — это переход по ссылкам, найденным в документе.
Сайты с большим количеством внешних обратных ссылок будут сканироваться чаще, особенно если эти обратные ссылки приходят с часто сканируемых сайтов.
Чтобы свести к минимуму влияние внешних ссылок, для проведения эксперимента были подобраны страницы, на которые на момент проверки не было внешних ссылок.
Внутренние ссылки
Объяснение в данном случае аналогично предыдущему фактору. По этой причине «REBOOT» выделили страницы, на которых либо вообще не было внутренних ссылок, либо были одни и те же внутренние ссылки.
Постоянная среда
В период тестирования с исследуемыми сайтами не проводили никаких манипуляций. Любое функциональное\нефункциональное изменение может привести к изменению в сканировании роботом Google.
Учет предыдущих данных
Важно выяснить, есть ли какие-либо различия в скорости сканирования до момента запуска теста.
Результаты
После 3-х месяцев эксперимента «REBOOT» проанализировали логи данных более чем в 350 000 строк и предоставили отчет. Из него следует:
Анализ данных API консоли поиска Google на выборке из 119 тестовых веб-страниц показал, что страницы 404 в среднем сканировались на 49,6% чаще, чем страницы 410.
Также исследователи сравнили результаты, разбив примеры страниц по количеству внутренних ссылок:
Комментарий по поводу данного исследования предоставил Кевин Индиг (SEO Shopify и ведущий подкаста Tech Bound):
«410 обрабатываются как 301, а 404 — как 302. Google чаще сканирует 404, потому что ожидает, что страница снова превратится в 200 или 410»
Таким образом можем предположить, если вы хотите, чтобы Google повторно сканировал удаленный URL-адрес как можно реже, вам следует использовать код ответа 410 вместо кода 404.
View Comments (2)
Доброго дня!!!Если бы ещё знать,как работать с этими ссылками.Я просто создал сайт,а как его продвигать и монетизировать-это дремучий лес.Ничего не понимаю
Добрый день. Мы можем посоветовать надежных seo специалистов из числа наших пользователей. Если возникнет необходимость в привлечении сторонних исполнителей, напишите в техническую поддержку, постараемся вам помочь.