Дубли страниц — плохо для продвижения сайта, даже несмотря на то, что они могут появляться по естественным причинам. Поисковые роботы хуже ранжируют страницы, контент которых мало чем отличается от других страниц. Чем больше дублей, тем больше причин исключить сайт из топ выдачи.
Какие последствия влекут дубликаты страниц?
- Снижается релевантность. Страницы с одинаковым контентом пессимизируются в выдаче.
- Снижается процент уникальности контента.
- Снижается вес URL-адресов сайта.
- Увеличивается время на индексацию.
- Бан от поисковых систем. Есть вероятность вылететь из выдачи на неопределенный срок.
Возможные типы дублей страниц на сайте
- Дубли страниц с протоколами http и https. Например: https://example.ru и http://example.ru
- Дубли с www и без. Например: https://example.ru и https://www.example.ru
- Дубли со слешем на конце URL и без. Например: https://example.ru/page/ и https://example.ru/page
- Дубли с множественными слешами в середине либо в конце URL. Например: https://example.ru/////////, https://example.ru/////////page/
- Прописные и строчные буквы на различных уровнях вложенности в URL. Например: https://example.ru/page/ и https://example.ru/PAGE/
- Дубли с добавлением на конце URL:
- index.php;
- home.php;
- index.html;
- home.html;
- index.htm;
- home.htm.Например: https://example.ru/page/ и https://example.ru/page/index.html
- Дубли с добавлением произвольных символов либо в качестве нового уровня вложенности (в конце или середине URL), либо в существующие уровни вложенности. Например: https://example.ru/page/saf3qA/, https://example.ru/saf3qA/page/ и https://example.ru/pagesaf3qA/
- Добавление произвольных цифр в конце URL в качестве нового уровня вложенности. Например: https://example.ru/page/ и https://example.ru/page/32425/
- Дубли с добавлением «звездочки» в конце URL. Например: https://example.ru/page/ и https://example.ru/page/*
- Дубли с заменой дефиса на нижнее подчеркивание или наоборот. Например: https://example.ru/defis-ili-nizhnee-podchyorkivanie/ и https://example.ru/defis_ili_nizhnee_podchyorkivanie/
- Дубли с некорректно указанными уровнями вложенности. Например: https://example.ru/category/page/ и https://example.ru/page/category/
- Дубли с отсутствующими уровнями вложенности. Например: https://example.ru/category/page/ и https://example.ru/page/
Как убрать дубли страниц на сайте?
301 редирект
Если сайт использует сервер Apache, необходимо задать правила в файле .htaccess с помощью регулярных выражений.
- с одной страницы на другую: Redirect 301 /test-1/ http://site.ru/test-2/
- с www на страницу без www (главное зеркало — домен без www):
RewriteCond %{HTTP_HOST} ^www\.(.*)$
RewriteRule^(.*)$ http://%1/$1 [L,R=301]
- с протокола http на https:
RewriteCond %{HTTPS} !=on
RewriteRule^(.*)$ https://%{HTTP_HOST}/$1 [R=301,L]
- 301 редирект для index.php, index.html или index.htm:
Если сайт использует Nginx, то правила прописываются в файле nginx.conf. Для перенаправления также нужно прописывать правила с помощью регулярных выражений:
location = /index.html {
return 301 https://site.com
}
Создание канонической страницы
Использование canonical указывает поисковому боту на страницу, которая должна быть в поисковой выдаче. Чтобы выделить такую страницу, нужно на всех URL дублей прописать код с адресом уникальной страницы:
<link rel= “canonical” href= «http://www.site.ru/original-page.html”>
Можно прописывать их вручную, но в популярных CMS, как правило, существуют уже готовые плагины.
Директива Disallow в robots.txt
В файле robots.txt должны содержаться инструкции для поисковых краулеров, как именно индексировать сайт.
User-agent: *
Disallow: site.ru/contacts.php?work=225&s=1
View Comments (4)
Редиректы однозначно помогают. Но сейчас очень долго идет переиндексация. Сталкнулся с такой проблемой в гугл и в яндекс тоже стал более медленный. Например здесь на сайте deadlylaugh.ru неравномерная индексация. Гугл и половину что яндекс не может проиндесировать. Что весьма плохо.
Соглашусь с Максимом, переиндексация сейчас проходит очень долго, так же такой вопрос, может кто знает, есть такая проблема на этом сайте once-upon-time.com, дубли с множественными слешами в конце URL, так вот может кто знает как убрать такое, в интернете не смог найти информацию.
- Установить тег canonical. В head: link rel="canonical" href="ссылка на кан. страницу";
- Удалить страницу;
- Установить 301 редирект;
- Запретить в robots.txt;
- Установить мета noindex. В head: meta name="robots" content="noindex".
больше идей нет
Я использовал такое правило, вроде работает:
RewriteCond %{THE_REQUEST} //
RewriteRule .* /$0 [R=301,L]