Запрет индексации, robots и htaccess. Закрыть от индексации страницы, папки, поддомены, ссылки.

27 Апр 2012 | Автор: |

Читайте так же — запрет индексации:

Мэт КатсЗапрет индексации требуется в том случае, когда вы не хотите, чтобы ваша информация попала в результаты поисковой выдачи. Так же это бывает необходимо, если вы не хотите, чтобы страницы не передавали свой вес другим, на которые стоят ссылки. На самом деле, задачи запрета индексации страниц и ссылок имеют одинаковые верные решения. То есть, если вы хотите скрыть от роботов страницу, недостаточно скрыть ссылку на нее. Тем более недостаточно запретить индексацию в robots.txt, ведь роботы прекрасно проходят на такие страницы по внешним ссылкам с других сайтов.
А потом, к тому же, берут из общедоступных источников(например dmoz.org) тайтл, который может быть уже неактуален. Таким образом, страница попадает в выдачу. Атрибут rel = nofollow всего лишь не дает ссылке передать вес странице акцептору, но отнимает у донора. А, в случае внутренней перелинковки, может серьезно нарушить процесс распределения весов. В итоге, единственным эффективным методом является запрет индексации в htaccess, который описан ниже. Подобные рассуждения ведет Мэтт Каттс (Matt Cutts) руководитель Google’s Webspam team в небольшом видео-уроке.>>>

 

Если доступа к robots.txt нет, стоит использовать метатег noindex. Именно метатег.

< meta name=’robots’ content=’noindex’ />

Тег noindex иногда используют с целью оптимизации сниппетов, но в остальном пользы от него не замечено. Взамен объяснений дам ссылку на статью —

К вопросу использования «noindex» при внутренней оптимизации сайта.

Запрет индексации ссылки в htaccess:

Для этого можно создать скриптик:

<?
Header (‘Location:’.$_GET['url'].’ ‘); exit();
?>

назвать его redirect.php и сохранить в папке http://mysite.ru/outlink/

Скрипту передавать параметр url:

http://mysite.ru/outlink/redirect.php?url=http://www.site.ru

Далее

Первый вариант – доступ к http://mysite.ru/outlink/ запретить роботам, как описано выше.

В htaccess задать страницу 403 ошибки или возвращать ее на главную:

ErrorDocument 403 http://mysite.ru/

Таким образом все будут переходить по адресу, заданному параметром url, но поисковые роботы будут попадать на главную, предварительно получив ответ:

302 Moved Permanently, Location: http://mysite.ru/;

Второй вариант – это в /outlink/.htaccess :

RewriteEngine on

RewriteCond %{HTTP_USER_AGENT} ^Google.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^.*yandex.*

RewriteRule ^(.*)$ http://mysite.ru/? [L,R=301]

В этом случае робот получит ответ:

301 Moved Permanently, Location: http://mysite.ru/;

Третий вариант – в http://mysite.ru/outlink/.htaccess :
(кстати рекомендованный Мэттом Каттсом ;)

AuthType Basic
AuthName ‘BBEguTE 1 u 1′ //сообщение только на латинице
AuthUserFile /’путь от корня сервера’/outlink/.htpasswd
Require valid-user
< Files .htpasswd> //лишний пробел после <
deny from all
< /Files> //лишний пробел после <

В /outlink/ разместить htpasswd содержащий имя пользователя и пароль, например единичками:

1:$apr1$xbXrU/..$dpywDS4kwdIovYs5oPImK0

Путь от корня сервера можете узнать, создав скриптик в папке http://mysite.ru/outlink/path.php следующего содержания:

< ?php //тут стоит лишний пробел между < и ?
phpinfo();
?>
Из переменной DOCUMENT_ROOT => /home/www/users/AM/public_html берем путь и ставим вместо ‘путь от корня сервера’.

Проверить работу этих и других методов запрета индексации можно зайдя на сайт с помощью этой формочки посмотреть как поисковый робот.

Неплохая справка по htaccess — http://www.ph4.ru/spravka_htaccess.ph4

VN:F [1.9.22_1171]
пожалуйста, оцените страницу, я старался :)
Rating: 4.9/5 (36 votes cast)
Запрет индексации, robots и htaccess. Закрыть от индексации страницы, папки, поддомены, ссылки., 4.9 out of 5 based on 36 ratings

комментариев 9 на «Запрет индексации, robots и htaccess. Закрыть от индексации страницы, папки, поддомены, ссылки.»

  1. Автор: Юрий на 14 Сен 2012

    добрый день! подскажите, а как запретить поисковикам выдавать https-версию сайта?

  2. Автор: vk.com cheredov на 14 Сен 2012

    Юрий, я так понимаю, что http и https лежат в одной папке?
    Тогда создайте файл robots-https.txt
    содержащий:
    User-agent: * Disallow: /
    а в .htaccess положите:
    RewriteCond %{HTTPS} on
    RewriteRule ^robots\.txt$ robots-https.txt

  3. Автор: koss на 18 Сен 2012

    у меня на сайте есть форум. Находится в отдельной папке (forum).
    Как можно запретить индексацию только ссылок с форума, а текст на форуме чтоб остался доступен для индексации поисковиков.

  4. Автор: Юрий на 18 Сен 2012

    спасибо огромное, получилось!))

  5. Автор: Ирина на 12 Авг 2013

    Здравствуйте. Проверила сайт на наличие исходящих ссылок. Таких оказалось 4 штуки. Подскажите, пожалуйста как можно закрыть их для индексации, если я не знаю где именно в тексте кода они находятся?

  6. Автор: vk.com Иван Чередов на 18 Авг 2013

    Ирина, их нужно найти в любом случае. Ну, либо воспользоваться каким нибудь плагином (хотя не зная ничего о сайте сложно вообще что-то говорить)

  7. Автор: Андрей на 27 Янв 2014

    Здравствуйте.
    Правильно ли я понял, что первым шагом надо прописать скрипт такого вида:

    А потом из трех вариантов? Например 2-ой:
    создать в закрываемой директории файл .htaccess и прописать в нем предложенный код.
    И это все?

  8. Автор: Евгений на 16 мая 2014

    Полезная публикация! Иван есть вопросы о практическом применении? Желательно по пунктам:
    1.создаем скрипт и сохраняем, где? (папка outlink) корне сайта или в теме?
    2./outlink/.htaccess, в этом случае пользователи будут переходить по ссылкам? А робот направляться на главную? Спасибо

  9. Автор: Алексей на 03 Фев 2016

    Добрый день! Второй способ работает еще? Если нет, то измените! Ценный материал!

Есть что сказать? - Напишите!

Для предотвращения автоматического заполнения, пожалуйста, выполните задание, приведенное рядом.