Как вы препятствуете появлению веб-страниц в индексе поиска Google?

У меня есть некоторые веб-страницы, которые Google индексировал. Теперь я добавил файл robots.txt , чтобы исключить их, но должен ли я также добавить тег noindex? Если да, то как это сделать?

5 голосов | спросил MIMI 28 J0000006Europe/Moscow 2011, 20:55:05

6 ответов


3

robots.txt должно быть достаточно, но Google не будет вносить изменения до следующего раза, когда они индексируют ваш сайт. Что, если ваш веб-сайт является низким трафиком, может быть некоторое время.

ответил 28 J0000006Europe/Moscow 2011, 20:57:15
3

Если вы хотите заблокировать поисковые системы от обхода и /или индексации ваших страниц, вы можете использовать несколько методов:

1) Используйте robots.txt . Google будет соблюдать его и автоматически удалять эти страницы, хотя для них нет расписания.

2) Использовать метатеги

<meta name="robots" content="noindex, nofollow">

3) Используйте заголовки http

Header set x-robots-tag: noindex

4) Используйте rel="nofollow" на любых ссылках, указывающих на эти страницы.

<a href="http://www.example.com/sample.html" rel="nofollow">Link to page I don't want indexed</a>

Вы также можете сообщить Google удалить эти страницы из своего индекса в Инструментах Google для веб-мастеров .

ответил John Conde 28 J0000006Europe/Moscow 2011, 21:44:59
2

Важное обновление

Google может не соблюдать ваши директивы robots.txt , как указано здесь: https://developers.google.com/webmasters/control-crawl-index/docs/faq#h17

  

Однако robots.txt Disallow не гарантирует, что страница не будет   появляются в результатах: Google все еще может решить, исходя из внешних   информацию, такую ​​как входящие ссылки, что она имеет значение. Если вы хотите   чтобы явно заблокировать страницу от индексации, вместо этого вы должны использовать   метатег noindex robots или HTTP-заголовок X-Robots-Tag. В этом случае,   вы не должны запрещать страницу в файле robots.txt, потому что страница должна   сканировать, чтобы метка просматривалась и выполнялась.

Не знаю, когда Google изменил это, но как это работает прямо сейчас.

ответил Jorge Fuentes González 30 J0000006Europe/Moscow 2013, 22:19:03
1

Вы бы использовали код, похожий на этот:

<html>
<head>
 <meta name="robots" content="noindex" />
 <title>Your Page Title</title>
</head>
ответил 28 J0000006Europe/Moscow 2011, 20:57:56
0

Не индексироваться - ничто не сложно, если вы понимаете, как работают роботы, и этим я не имею в виду понимание их алгоритма, просто базовую механику. Кроме того, нет необходимости рассматривать, как конкретный искатель работает в определенный момент, так как они могут изменять свое поведение в любой момент времени.

Они проверяют ips и ссылки, неважно, как они получают свой первый ресурс, но как только они его получили, они следуют ссылкам оттуда и пробовали некоторые базовые комбинации, а это значит, что если он достигнут, он будет проиндексирован.

Итак, если вы хотите избежать индексации, вы хотите «не быть там». Как вы можете достичь этого?

  1. Не было. Не публиковать
  2. Скрыть за закрытой дверью. Как защищенная система с пользователем и паролем.
  3. Используйте HTTP-коды, такие как 307 или 302.

Вариант 1 очевиден, поэтому он не требует много деталей.

Вариант 2 очень хорош, пока вы тестируете живую среду, показываете клиенту, выполняете какое-то обслуживание и т. д. Это требует, чтобы вы реализовали некоторую систему пользователей /паролей, и поэтому большинство людей этого не сделают, если они не будут используют предварительно упакованную систему, которая включает такой механизм. Все еще целесообразно. Вы можете комбинировать это с методом 3, если используете ограничения IP, например, чтобы позволить себе или клиенту просматривать веб-сайт, но никто другой.

Вариант 3 проще реализовать, чем вариант 2, но может быть неправильным во всех ситуациях. Если вам нужен ограниченный доступ, не забудьте создать правила, допускающие некоторые IP-адреса. Этот вариант рекомендуется много раз, используя коды 5xx. Не делай этого. На вашем сервере нет ничего плохого, поэтому не сообщайте неверную информацию. Если запрос выполняется с версией 1.1 или более поздней версии HTTP-протокола, ответ должен быть равен 307. Если запрос составлен с версией 1.0, ответ должен быть 302. Оба варианта подразумевают, что вы должны предоставить альтернативный URL-адрес, это может быть страница, объясняющая причины (в идеале) или, по крайней мере, страница на вашем сайте.

Эти параметры не предполагают, что у вас есть контент и его перемещение, что имеет место для 301 перенаправления. Предположим, что вы публикуете новый контент, и вы не хотите, чтобы он был проиндексирован.

ответил PatomaS 6 FebruaryEurope/MoscowbThu, 06 Feb 2014 06:42:14 +0400000000amThu, 06 Feb 2014 06:42:14 +040014 2014, 06:42:14
0
ответил GoodEnough 28 J0000006Europe/Moscow 2011, 20:58:19

Похожие вопросы

Популярные теги

security × 330linux × 316macos × 2827 × 268performance × 244command-line × 241sql-server × 235joomla-3.x × 222java × 189c++ × 186windows × 180cisco × 168bash × 158c# × 142gmail × 139arduino-uno × 139javascript × 134ssh × 133seo × 132mysql × 132