Файл robots.txt является очень важной метрикой при сканировании поисковыми роботами. Одну из основных задач, которую вы должны сделать в рамках технической оптимизации сайта, — это оптимизировать файл robots.txt. Для этого стоит ознакомиться с основной информацией, связанной с ним.
Robots.txt — это небольшой текстовый файл, который размещается в корневом каталоге веб-сайта и содержит инструкции для поисковых роботов о том, какие подстраницы и разделы домена они могут посетить, а какие не должны. Другими словами, файл robots.txt разрешает или запрещает доступ к определенным URL-адресам в домене.
Заметим, что robots.txt является только рекомендацией. Он не может заставить бота следовать его правилам. В то время как Google гарантирует, что Googlebot примет ваши рекомендации, другим роботам это не нужно. Поэтому вредоносные боты могут игнорировать рекомендации в файле и индексировать сайт в своей поисковой системе.
Определенный URL-адрес также может быть проиндексирован, если ссылка на него появляется на другом проиндексированном сайте. В этой ситуации вы можете защитить себя от несколькими способами: например, посредством метатега «noindex» или HTTP-заголовка «X-Robots-Tag».
В контексте файла речь пойдет о сокрытии данных, а не об их удалении из индекса поисковика.
Места, которые robots.txt не должен сканировать
Интернет-магазины часто имеют тысячи вложенных страниц, некоторые из которых не имеют никакой ценности в контексте результатов поиска, а в худшем случае вызовут дублирование контента.
Существует определенная группа подстраниц, видимость которых нежелательна:
- правила и политика конфиденциальности,
- административная панель,
- вход и регистрация,
- корзина заказов,
- страница восстановления пароля,
- результаты поиска из внутренней поисковой системы.
Из-за своего дизайна они вызовут ненужную путаницу, чем ухудшат видимость в поисковой выдаче.
Рекомендация: Дважды проверьте, какие страницы веб-сайта вы решите скрыть. Если роботы не смогут идентифицировать какую-либо из важных URL, это может существенно повлиять на ранжирование всего веб-сайта.
Как создать файл robots.txt
Создать файл robots можно различными способами:
- написать его вручную,
- сгенерировать с помощью внешнего инструмента,
- некоторые CMS автоматически создают файл robots.txt для веб-сайта.Вы можете убедиться в этом, добавив «/robots.txt» в конец имени своего домена.
Но самый простой и популярный способ — это ручное создание. Такой метод требует знания синтаксиса протокола, то есть правил и команд, которые мы можем давать индексирующим роботам.
Используя любой текстовый редактор (например, блокнот в Windows), создайте текстовый файл «robots.txt» и пропишите все правила и юзер-агенты вручную. Согласно рекомендациям Google, система кодировки символов- UTF-8. Далее перейдите в корневой каталог вашего сайта (/public_html/) и загрузите в нее ранее созданный файл. Здесь вы сможете отредактировать его позже.
Конструкция файла robots.txt
При составлении файла robots.txt важно учитывать, что правила сканирования поисковых роботов Яндекса и Google отличаются. Но в основном, взаимодействие роботов с сайтом осуществляется с помощью трех основных команд (директив):
- \»User-agent\» — указывает адресата команды. Здесь мы вводим имя индексирующего бота. В Интернете мы можем найти обширную базу имен (http://www.robotstxt.org/db.html), но чаще всего мы хотим общаться с уже упомянутыми роботами Google и Яндекс, или же со всеми сразу — в этом случае используем звездочку «*».
Например, для бота Google первая строка файла выглядит так:
User-agent: Googlebot
- \»Запретить\» (Disallow) — вводим адрес, который боты не должны сканировать. Наиболее популярными способами являются скрытие содержимого целых каталогов путем ввода пути, оканчивающегося символом «/», например:
Disallow: /заблокированный/
или файлы:
Disallow: /каталог/заблокированныйфайл.html
- \»Разрешить\» (Allow) — с помощью этой команды вы можете разрешить доступ к определенной дочерней папке или расширению, расположенному в родительской папке, которую вы исключили с помощью команды «Запретить»:
Allow: /заблокированный/отблокированныйкаталог/
Allow: /заблокированный/другой/отблокированныйфайл.html
«Разрешить» установлено по умолчанию, поэтому у каждого робота есть разрешение на доступ ко всем подстраницам.
- Указываем путь к карте сайта:
Sitemap: http://www.мойадрес.com/sitemap.xml
Этот элемент не обязателен для корректной работы файла robots.txt
Если обобщить весь процесс, то сначала вы указываете, на какого робота/поисковую систему вы ссылаетесь («User-agent»), а затем перечисляете правила, которым должен следовать робот — с помощью «Разрешить» и «Запретить».
Что еще следует учесть?
Файл robots.txt состоит из групп (не менее одной), каждая из которых содержит:
- указание, к какому роботу относится (User-agent);
- к каким каталогам и файлам робот может или не может получить доступ (директивы Allow и Disallow);
- группы обрабатываются сверху вниз, каждому роботу сопоставляется только одна группа правил (та, которая наиболее точно к нему применима);
- все страницы, не заблокированные правилом Disallow могут быть проиндексированы роботом по умолчанию;
- robots чувствителен к регистру в правилах;
- в одной строке может быть только одно правило;
- использование звездочки «*» в директиве User-agent заставляет ссылаться на всех ботов, кроме ботов AdsBot (для их блокировки требуется прямое указание);
- правило каталога должно заканчиваться на «/»:
User-agent: *
Disallow: /наименование-каталога/
- правило для конкретной страницы должно содержать ее полное название;
- Символ «*» может использоваться в директивах User-agent, Allow и Disallow в качестве префикса, суффикса или всего пути;
Символ «$» соответствует всем URL-адресам, которые заканчиваются указанной строкой, например, правило блокирует все URL-адреса, оканчивающиеся на .pdf:
User-agent: *
Disallow: /*.pdf$
Почему единый блок директив — не лучший выбор
Когда дело касается файла robots.txt, некоторые веб-мастера предпочитают использовать единый блок директив для всех поисковых роботов. Однако, такой подход может оказаться не самым эффективным, поскольку, как мы упоминали ранее, поисковые роботы Яндекса и Google, могут по-разному интерпретировать директивы файла robots.txt из-за различий в правилах сканирования:
- Если Googlebot при обращении к сайту не может получить доступ к файлу robots.txt, он может принять решение уйти и не продолжать сканирование сайта. В этом отношении Яндекс-бот может быть менее строгим — вероятнее всего, он продолжит сканирование сайта без ухода.
- Существуют директивы, которые использует Яндекс и не признаёт Google, например, Clean-param. Эта директива позволяет указывает ботам Яндекса игнорировать определенные параметры URL-адреса при индексации страницы. С другой стороны, директиву «noindex» поддерживает только Google. Она указывает Googlebot не индексировать определенную страницу или раздел сайта.
- Важно учитывать также различия в подходах к индексации и ранжированию страниц. Яндекс больше обращает внимание на мета-теги или структуру сайта, в то время как Google больше полагается на другие факторы, такие как ссылки или ключевые слова.
- Для Яндекса, важно понимать, какие страницы вашего сайта должны быть включены в индекс. Алгоритмы Google более активно используют различные сигналы и фильтры, чтобы исключить страницы с дублирующим или низкокачественным контентом из своего индекса. Поэтому для Google более важно понимать, какие страницы не должны быть включены в индекс.
Удачным решением может быть управление индексацией на уровне страницы и минимальная блокировка сканирования для Googlebot. Позволяя ему более полно сканировать и индексировать ваш сайт, вы даете возможность лучше понять его контент и структуру. Алгоритмы Google постоянно развиваются и становятся все более умными, поэтому они способны разобраться в информации и без вашего активного участия. Однако, если ваши логи показывают необычную активность Googlebot на страницах, где ее не ожидается, это может указывать на проблемы.
Таким образом, понимание различий в поведении Googlebot и Яндекс-бота в отношении файла robots.txt поможет вам лучше планировать и оптимизировать индексацию вашего сайта в обеих поисковых системах.
Как проверить файл robots.txt?
Создав файл robots.txt , вы можете протестировать его. Благодаря этому вы будете знать, правильно ли он написан и будут ли роботы следовать содержащимся в нем рекомендациям. Для этого авторизуйтесь например в Google Search Console и перейдите по ссылке .
В инструменте тестирования файлов robots вы можете убедиться, что роботы будут сканировать отдельные URL-адреса. Проверять файл не обязательно, но это может быть полезно в случае очень больших страниц, когда у вас много обширных правил и исключений. В этом инструменте вы также можете уведомить Google о внесении изменений и запросить индексацию нового файла.
Интересно! Познавательно! Спасибо!