Дубли страниц на сайте: Найти и удалить

Дубли страниц сайта – это полный или частичный повтор содержимого на его страницах.

Содержание:

Виды дублирования контента

  1. Полный дубликат страницы – это точное совпадение содержимого.
  2. Частичный дубликат – когда контент дублируется лишь частично, то есть отдельные его элементы.

Как дубли страниц влияют на ранжирование сайта?

Данные страницы сайта воспринимаются как полноценная страница сайта, которая ничем не отличается от основного вашего контента. И если таких страниц на сайте становится слишком много, то ценность основного контента снижается на фоне того, что много страниц сайта являются одинаковыми. И если таких дублей становится очень много, то Сайт начинает ранжироваться хуже.

Чаще всего причиной генерации дублей является система управления контентом или CMS, которая была не правильно настроена.

Очень часто эти проблемы можно встретить на популярных CMS:

  • Joomla:
  • OpenCart.

Обычно данные проблемы проявляются в виде частичных дублей в интернет-магазинах, в таких случаях:

  • Страницы пагинации, которые генерируют полный дубль контента. Кроме набора товаров.
  • Системы фильтрации и сортировок товаров в каталоге.
  • Товары, которые лежат в разных категориях и в зависимости от пути следования к категории имеют разный url.
  • Товары, которые отличаются лишь незначительными характеристиками, цветом, размером.

Как найти дубли страниц?

Существует несколько основных способов поиска дубликатов внутри сайта, которые могут отличаться кардинально.

  1. Прогнать сайт сканером.
  2. Для этого можно воспользоваться любым из парсеров:

    • NetPeakSpider;
    • Xenu;
    • Lincoscop.

    Все эти программы делают приблизительно одно и тоже разница лишь в графическом интерфейсе и удобстве подачи данных. Все эти программы условно бесплатны и для проектов до 10-20 тысяч страниц отлично подойдут.

    Если же нужно собрать что-то крупнее, до 50 тысяч страниц, то лучше воспользоваться чем-то вроде ScreamingFrog. Программа платная, но ее функционал стоит того, чтобы за него заплатить.

    В случае же с совсем крупными проектами 100-200-500 тысяч страниц – у вас может возникнуть проблема с нехваткой ресурсов для обработки всех собранных данных, ваш компьютер попросту будет ложиться. Тогда нужно прибегнуть к более дорогостоящим сервисам типа deepcrawl.

    Дальше нужно проверить наличие дубликатов по основным моментам:

    • Текст (устраняем дублирующийся контент либо закрываем его от индексации).
    • Title (Устраняем дублирующий контент либо кастомизируем).
    • Description (Устраняем дублирующий контент либо кастомизируем)
    • H1 (Устраняем или кастомизируем)
  3. Посмотреть Ошибки, которые показывает Google Search Console.
  4. Для этого нужно авторизоваться свой сайт в SearchConsole.

    Перейти в раздел Сканирование – Ошибки сканирования и там следовать всем инструкциям и подсказкам, на которые указывает Google. Он показывает какую страницу считает дублем и каким образом он ее нашел (с какой страницы стоит ссылка на данный дубль). Для исправления нужно устранить сам дубль и поправить ссылку, которая ведет на мусорную страницу.

  5. Спарсить проиндексированные страницы и закрыть типичные ошибки.
  6. Для этого можно воспользоваться оператором поиска по сайту site:domain.com.

    И вытащить все страницы, которые проиндексировал Google. После этого, необходимо выделить мусорные страницы и закрыть их от индексации.

    Если у вас маленький сайт, то выгрузить индекс реально и руками, но при больших обьемах придется прибегать к помощи парсеров, например, A-parser или других с подобными возможностями и функционалом.

Как удалить дубликаты страниц на сайте?

  1. Вручную удалить все, что вам не нужно.
  2. Этот вариант очень точечный и подходит для небольших сайтов или в случае, если удалить нужно небольшое количество страниц с дублирующимся контентом. Также нужно разобраться в своей Системе управления контентом и устранить проблему, которая генерировала дубли, чтобы в дальнейшем они не появлялись опять.

  3. Настроить 3хх редирект.
  4. Редирект – это перенаправление пользователя пришедшего на страницу сайта по адресу, который вы заранее указали. Данная процедура приводит к склейке страниц и выпадению ненужно страницы с индекса (со временем). Данный способ способен передать максимум веса как ссылочного внешнего, так и внутреннего.
    Однако стоит учитывать, что злоупотреблять данным методом нельзя, так-как большое количество редиректов также является негативным сигналом для поисковой машины. Если вы переклеиваете какую-то страницу. То проследите, чтобы ссылки, которые идут на эту страницу также были поменяны на новый адрес – это будет лучше, чем вы каждый раз будете редиректить робота.

  5. Основные моменты, с которыми сталкиваются многие вебмастера.
    • Редирект с www на без www и наоборот
    • Вот один из вариантов решения данной проблемы.

      RewriteCond %{HTTP_HOST} ^www.site.com$ [NC]
      RewriteRule^(.*)$ http://site.com/$1 [R=301,L]

      И наоборот

      RewriteCond %{HTTP_HOST} ^site.com$ [NC]
      RewriteRule^(.*)$ http://www.site.com/$1 [R=301,L]
      
    • Редирект дублей со слешем вконце и без него.
    • Убрать /

      RewriteCond %{HTTP_HOST} (.*)
      RewriteCond %{REQUEST_URI} /$ [NC]
      RewriteRule^(.*)(/)$ $1 [L,R=301] 
      Дописать /
      RewriteCond %{REQUEST_FILENAME} !-f 
      RewriteCond %{REQUEST_URI} !(.*)/$ 
      RewriteRule^(.*[^/])$ $1/ [L,R=301]
    • Редирект с 1 страницы на другую (точечно)
    • Redirect 301 /old.page http://domain.com/new.page

    Такого рода мелкие проблемы реально решить своими силами, без привлечения программиста. Однако более серьезные и сложные Операции могут потребовать привлечения специалиста, который составит правило переадресации.

  6. Указать каноническую страницу при помощи rel=”Canonical”
  7. Данный метод подойдет для закрытия частичных дублей и указания основной версии страницы, которую нужно считать главной.В данном случае дублирующий контент остается доступным пользователям, находящимся на сайте, но при этом мы говорим поисковой машине, что данный контент нужен пользователям и мы осознанно его оставили.
    Для указания Канонического УРЛа нужно вставить в секцию Head вашей страницы такую строку:

    link rel="canonical"href="http://domain.com/mainpage
  8. Прописать запрещающие индексации директивы в файле robots.txt.
  9. Данным способом также можно устранять дубли, однако он лучше подойдет для закрытия страниц на этапе создания сайта, так-как же проиндексированные страницы из индекса могут выходить очень долго или не выходить вовсе.
    Для закрытия от индексации частей сайта нужно выделить признаки, по которым и можно сгруппировать, и указать их при помощи директивы disallow.

Для популярных Систем управления Контентом типа WordPress Joomla существуют стандартные файлы robots.txt, которые закроют большинство возможных проблем, однако частные случае все ровно могут возникать и тогда приходиться использовать методы поиска дублей, о которых мы писали вначале статьи.

Выводы

Наличие дублей в индексе может значительно ухудшить ранжирование вашего сайта в поисковых системах, потому, перед началом продвижения любого проекта крайне важно провести технический аудит и выделить проблемы, связанные с дублированием контента и индексацией. Ведь при наличии большого количества дублей любые попытки манипуляций с алгоритмами поисковых систем могут не привести к желаемому результату так как на сайте имеются фундаментальные проблемы, которые ставят крест на любом продвижении.