вРазные полезности

[uCoz] Как избавиться от ssid-дублей главной страницы

Сегодня обнаружил что Гугл проиндексировал кучу мусорных страниц вида «http://uguide.ru/?ssid=». Чтобы не доводить до греха решил помочь ему отсечь эти копии морды и предотвратить их дальнейшее появление в индексе. По-хорошему такие ssid-клоны вообще не должны быть «видны» для поисковых роботов, но повлиять на это не могу, и он таки наковырял их с каких-то скриптов.

Для начала необходимо понять есть ли у вас подобная проблема или нет. Сделать это можно при помощи запроса в Гугл: site:http://uguide.ru inurl:?ssid (естественно нужно поставить url вашего сайта).

В результате видим, что в моем случае проиндексировано 6 страниц. Это фактически полные дубли главной страницы. Думаю нет смысла расписывать как плохо поисковые системы относятся к сайтам с неуникальным контентом. Поэтому их нужно убрать с индекса как можно быстрее.

Для того, чтобы Гугл быстрее «сообразил» я помогу ему при помощи запрета на индексацию этих страниц, и использования атрибута rel=»canonical».

Запрет на индексацию

Начну с robots.txt. Это текстовый файл, который находится в корне сайта (http://uguide.ru/robots.txt). Предназначен он для управления роботами поисковых систем. При помощи этого файла вы можете давать указания роботам: как вести себя на сайте, какие урлы индексировать, в общем как обрабатывать ваш сайт. В этом посте я не буду детально расписывать все тонкости его использования, просто скажу что в рамках текущей задачи мне нужно добавить в этот файл одну строчку:

Код
Disallow: /?ssid=

Эта запись будет указывать поисковым системам, что страницы вида uguide.ru/?ssid= не должны индексироваться. Более детально про robots.txt можно почитать вот тут: http://help.yandex.ru/webmaster/?id=996567, и тут: http://robotstxt.org.ru/

Атрибут rel=»canonical»

При помощи этого атрибута можно расставить приоритеты между кучей страниц с очень похожим содержанием. Более детально об этом атрибуте расписано тут: http://support.google.com/webmasters/bin/answer.py?hl=ru&answer=139394

Вообще-то данная ситуация не тот случай для которого придумали rel=»canonical», но все же думаю лишним не будет указать Гуглу что эти страницы абсолютно идентичны, и среди всех копий главной считать именно http://uguide.ru/

Для того, чтобы это сделать мне нужно добавить запись <link rel=»canonical» href=»http://uguide.ru/»> на все дублирующие морду http://uguide.ru/?ssid= страницы:

Код
<?if(substr($REQUEST_URI$,2,4)=»ssid»)?><link rel=»canonical» href=»http://uguide.ru/»><?endif?>  <?if(substr($REQUEST_URI$,2,4)=»ssid»)?><meta name=»robots» content=»noindex»><?endif?>

Ну и чтобы «враг наверняка не прорвался», добавлю еще одну строчку: <meta name=»robots» content=»noindex»>. Вот как это выглядит «в коде»:

После этих нехитрых манипуляций все ssid-клоны будут закрыты от «поисковиков» и иметь атрибут, указывающий что эти страницы не заслуживают индексации. Рекомендую всем проверить свои сайты, и избавиться от дублей главной страницы. Это явно будет полезно.

P.S: Да, я параноик и знаю что не обязательно использовать все способы одновременно.

Источник: uguide.ru

Похожие посты