Как создать и для чего использовать файл robots.txt

Как создать и для чего использовать файл robots.txt

Файл robots.txt является очень важной метрикой при сканировании поисковыми роботами. Одну из основных задач, которую вы должны сделать в рамках технической оптимизации сайта, — это оптимизировать файл robots.txt. Для этого стоит ознакомиться с основной информацией, связанной с ним.

Robots.txt — это небольшой текстовый файл, который размещается в корневом каталоге веб-сайта и содержит инструкции для поисковых роботов о том, какие подстраницы и разделы домена они могут посетить, а какие не должны. Другими словами, файл robots.txt разрешает или запрещает доступ к определенным URL-адресам в домене. 

Заметим, что robots.txt является только рекомендацией. Он не может заставить бота следовать его правилам. В то время как Google гарантирует, что Googlebot примет ваши рекомендации, другим роботам это не нужно. Поэтому вредоносные боты могут игнорировать рекомендации в файле и индексировать сайт в своей поисковой системе. 

Определенный URL-адрес также может быть проиндексирован, если ссылка на него появляется на другом проиндексированном сайте. В этой ситуации вы можете защитить себя от несколькими способами: например, посредством метатега «noindex» или HTTP-заголовка «X-Robots-Tag».

В контексте файла речь пойдет о сокрытии данных, а не об их удалении из индекса поисковика.

Места, которые robots.txt не должен сканировать

Интернет-магазины часто имеют тысячи вложенных страниц, некоторые из которых не имеют никакой ценности в контексте результатов поиска, а в худшем случае вызовут дублирование контента.

Существует определенная группа подстраниц, видимость которых нежелательна:

  • правила и политика конфиденциальности,
  • административная панель,
  • вход и регистрация,
  • корзина заказов,
  • страница восстановления пароля,
  • результаты поиска из внутренней поисковой системы.

Из-за своего дизайна они вызовут ненужную путаницу, чем ухудшат видимость в поисковой выдаче.

Рекомендация: Дважды проверьте, какие страницы веб-сайта вы решите скрыть. Если роботы не смогут идентифицировать какую-либо из важных URL, это может существенно повлиять на ранжирование всего веб-сайта.

Как создать файл robots.txt

Создать файл robots можно различными способами:

  • написать его вручную,
  • сгенерировать с помощью внешнего инструмента,
  • некоторые CMS автоматически создают файл robots.txt для веб-сайта.Вы можете убедиться в этом, добавив «/robots.txt» в конец имени своего домена.  

Но самый простой и популярный способ — это ручное создание. Такой метод требует знания синтаксиса протокола, то есть правил и команд, которые мы можем давать индексирующим роботам.

Используя любой текстовый редактор (например, блокнот в Windows), создайте текстовый файл «robots.txt» и пропишите все правила и юзер-агенты вручную. Согласно рекомендациям Google, система кодировки символов- UTF-8. Далее перейдите в корневой каталог вашего сайта (/public_html/) и загрузите в нее ранее созданный файл. Здесь вы сможете отредактировать его позже. 

Конструкция файла robots.txt

При составлении файла robots.txt важно учитывать, что правила сканирования поисковых роботов Яндекса и Google отличаются. Но в основном, взаимодействие роботов с сайтом осуществляется с помощью трех основных команд (директив): 

  • \»User-agent\» — указывает адресата команды. Здесь мы вводим имя индексирующего бота. В Интернете мы можем найти обширную базу имен (http://www.robotstxt.org/db.html), но чаще всего мы хотим общаться с уже упомянутыми роботами Google и Яндекс, или же со всеми сразу — в этом случае используем звездочку «*»

Например, для бота Google первая строка файла выглядит так: 

User-agent: Googlebot

  • \»Запретить\» (Disallow) — вводим адрес, который боты не должны сканировать. Наиболее популярными способами являются скрытие содержимого целых каталогов путем ввода пути, оканчивающегося символом «/», например:

Disallow: /заблокированный/

или файлы:

Disallow: /каталог/заблокированныйфайл.html

  • \»Разрешить\» (Allow) — с помощью этой команды вы можете разрешить доступ к определенной дочерней папке или расширению, расположенному в родительской папке, которую вы исключили с помощью команды «Запретить»:

Allow: /заблокированный/отблокированныйкаталог/

Allow: /заблокированный/другой/отблокированныйфайл.html

«Разрешить» установлено по умолчанию, поэтому у каждого робота есть разрешение на доступ ко всем подстраницам.

  • Указываем путь к карте сайта:

Sitemap: http://www.мойадрес.com/sitemap.xml

Этот элемент не обязателен для корректной работы файла robots.txt 

Если обобщить весь процесс, то сначала вы указываете, на какого робота/поисковую систему вы ссылаетесь («User-agent»), а затем перечисляете правила, которым должен следовать робот — с помощью «Разрешить» и «Запретить».  

Что еще следует учесть?

Файл robots.txt состоит из групп (не менее одной), каждая из которых содержит:

  • указание, к какому роботу относится (User-agent);
  • к каким каталогам и файлам робот может или не может получить доступ (директивы Allow и Disallow);
  • группы обрабатываются сверху вниз, каждому роботу сопоставляется только одна группа правил (та, которая наиболее точно к нему применима);
  • все страницы, не заблокированные правилом Disallow могут быть проиндексированы роботом по умолчанию;
  • robots чувствителен к регистру в правилах;
  • в одной строке может быть только одно правило;
  • использование звездочки «*» в директиве User-agent заставляет ссылаться на всех ботов, кроме ботов AdsBot (для их блокировки требуется прямое указание);
  • правило каталога должно заканчиваться на «/»:

User-agent: *
Disallow: /наименование-каталога/

  • правило для конкретной страницы должно содержать ее полное название;
  • Символ «*» может использоваться в директивах User-agent, Allow и Disallow в качестве префикса, суффикса или всего пути;

Символ «$» соответствует всем URL-адресам, которые заканчиваются указанной строкой, например, правило блокирует все URL-адреса, оканчивающиеся на .pdf:

User-agent: *
Disallow: /*.pdf$  

Почему единый блок директив — не лучший выбор

Когда дело касается файла robots.txt, некоторые веб-мастера предпочитают использовать единый блок директив для всех поисковых роботов. Однако, такой подход может оказаться не самым эффективным, поскольку, как мы упоминали ранее, поисковые роботы Яндекса и Google, могут по-разному интерпретировать директивы файла robots.txt из-за различий в правилах сканирования:

  1. Если Googlebot при обращении к сайту не может получить доступ к файлу robots.txt, он может принять решение уйти и не продолжать сканирование сайта. В этом отношении Яндекс-бот может быть менее строгим — вероятнее всего, он продолжит сканирование сайта без ухода. 
  2. Существуют директивы, которые использует Яндекс и не признаёт Google, например, Clean-param. Эта директива позволяет указывает ботам Яндекса игнорировать определенные параметры URL-адреса при индексации страницы. С другой стороны, директиву «noindex» поддерживает только Google. Она указывает Googlebot не индексировать определенную страницу или раздел сайта. 
  3. Важно учитывать также различия в подходах к индексации и ранжированию страниц. Яндекс больше обращает внимание на мета-теги или структуру сайта, в то время как Google больше полагается на другие факторы, такие как ссылки или ключевые слова. 
  4. Для Яндекса, важно понимать, какие страницы вашего сайта должны быть включены в индекс. Алгоритмы Google более активно используют различные сигналы и фильтры, чтобы исключить страницы с дублирующим или низкокачественным контентом из своего индекса. Поэтому для Google более важно понимать, какие страницы не должны быть включены в индекс.

Удачным решением может быть управление индексацией на уровне страницы и минимальная блокировка сканирования для Googlebot. Позволяя ему более полно сканировать и индексировать ваш сайт, вы даете возможность лучше понять его контент и структуру. Алгоритмы Google постоянно развиваются и становятся все более умными, поэтому они способны разобраться в информации и без вашего активного участия. Однако, если ваши логи показывают необычную активность Googlebot на страницах, где ее не ожидается, это может указывать на проблемы. 

Таким образом, понимание различий в поведении Googlebot и Яндекс-бота в отношении файла robots.txt поможет вам лучше планировать и оптимизировать индексацию вашего сайта в обеих поисковых системах.

Как проверить файл robots.txt?

Создав файл robots.txt , вы можете протестировать его. Благодаря этому вы будете знать, правильно ли он написан и будут ли роботы следовать содержащимся в нем рекомендациям. Для этого авторизуйтесь например в Google Search Console и перейдите по ссылке .

В инструменте тестирования файлов robots вы можете убедиться, что роботы будут сканировать отдельные URL-адреса. Проверять файл не обязательно, но это может быть полезно в случае очень больших страниц, когда у вас много обширных правил и исключений. В этом инструменте вы также можете уведомить Google о внесении изменений и запросить индексацию нового файла.

Оценить:
1 Звезда2 Звезды3 Звезды4 Звезды5 Звезд Рейтинг 3,50 (голосов: 2)
Загрузка...

1 комментарий Как создать и для чего использовать файл robots.txt

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *