1

Тема: Дубли страниц Wordpress

Прошу совета по поводу дублей страниц на новом сайте.

Обычно особо не заморачиваюсь с файлом robots, для естественности вообще на первом месяце сайта его не использую. А тут решил сразу его установить, и обе ПС одинаково индексируют дубли из архива, такого типа: mysite.ru/2012/05/17/, вместо нормальной страницы с ЧПУ и тайтлом. Также несмотря на рапрет рублрик, он обе ПС их проиндексировали.

Что с этим делать? Я как-то не сталкивался до этого. Как вообще запретить вордпрессу создавать такие страницы? Это возможно?

Вот текст робота, самое интересное, на других сайтах он нормально работает:

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /wp-cron.php
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /webstat/
Disallow: /feed/
Disallow: /page/
Disallow: /search/
Disallow: /goto/
Disallow: /archive/
Disallow: /author
Disallow: /?cat=*
Disallow: /?tag=*
Disallow: /?m=*
Disallow: *.html/*
Disallow: */sphinx/*
Disallow: */*.js*
Disallow: */?p*
Disallow: */?s*

Помогите!

2

Re: Дубли страниц Wordpress

У нас вот такой:

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /feed
Disallow: /comments
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /archives/
Disallow: /search/
Disallow: */page/
Disallow: /tag/
Disallow: /xmlrpc.php
Host: traveliving.org 
Sitemap: http://traveliving.org/sitemap.xml

3

Re: Дубли страниц Wordpress

Аджей, да вроде все тоже в целом. Хотя утебя даже рубрики не закрыты, и наверно это не мешает.

Не понимаю, почему пять стаей из шести проиндексированы из архива.

Аджей, а ты не знаешь, как вообще запретить CMS создавать архивные дубли?

4

Re: Дубли страниц Wordpress

Котовский пишет:

как вообще запретить CMS создавать архивные дубли?

запретить вы токо с ЧПУ могёте... ))

есть такая фишка - канонические страницы обозначить, но как это автоматически на ВП сделать - я не знаю

+1

5

Re: Дубли страниц Wordpress

Спасибо, Павел.

Наверно, плюну, сегодня он и основные страницы проиндексировал. Буду надеяться, что Гугл сам разберется, жаль только, что из-за этого наверняка в сопли сайт уйдет поначалу. :(

Вообще интересно, как по разному на сайтах работает один и тот же робот. У меня на личном блоге Гугл крайне аккуратен с индексацией: из 126 страниц - 101 в основной выдаче. Другой сайт имеет в соплях больше половины контента. Робот одинаковый. Странно.

6

Re: Дубли страниц Wordpress

Котовский пишет:

да вроде все тоже в целом

У вас там archive вместо archives. Чтобы не индексировались ссылки по датам типа mysite.ru/2012/05/17/ можно внести в роботс что-то типа
Disallow: */201
Чтобы запретить рубрики на вашем сайте:
Disallow: */topics/

Котовский пишет:

Хотя утебя даже рубрики не закрыты, и наверно это не мешает.

Дело в том, что у нас страницы рубрик уникальные, там есть описание стран и городов, которые больше нигде на сайте не фигурируют, поэтому я их оставил.

Котовский пишет:

Аджей, а ты не знаешь, как вообще запретить CMS создавать архивные дубли?

Эти страницы физически не хранятся где-либо. То есть CMS их не создает, а генерирует "на лету". Если запретить генерацию таких страниц, то и пользователям они будут не доступны.

7

Re: Дубли страниц Wordpress

Спасибо, Аджей!

С роботом сделал примерно то, что ты сказал.

А каким образом запретить генерацию этих страниц в WP?

8

Re: Дубли страниц Wordpress

Котовский пишет:

А каким образом запретить генерацию этих страниц в WP?

Я не знаю, как это сделать, но если никто не будет вводить такие сслыки, то и страницы такие генерироваться не будут. Поэтому нужно просто удалить все ссылки на такие страницы с сайта, запретить их в роботс и удалить их из sitemap.xml если у вас есть плагин для его генерации.