Почему результаты поиска Google включают страницы, запрещенные в файле robots.txt?

У меня есть несколько страниц на моем сайте, на которых я хочу, чтобы поисковые системы были недоступны, поэтому я запретил их в файле robots.txt следующим образом:

User-Agent: *
Disallow: /email

Однако я недавно заметил, что Google по-прежнему иногда возвращает ссылки на эти страницы в результатах поиска. Почему это происходит, и как я могу остановить его?

Справочная информация:

Несколько лет назад я создал простой веб-сайт для клуба, в котором участвовал мой родственник. Они хотели иметь ссылки на свои страницы электронной почты, чтобы попытаться сохранить эти адреса электронной почты на слишком большом количестве списков спама, вместо прямых ссылок mailto: я сделал эти ссылки ссылкой на простой перенаправитель / сценарий запуска харвестеров на моем собственном сайте. Этот скрипт вернет либо 301 переадресацию на фактический URL-адрес mailto:, либо, если он обнаружит шаблон подозрительного доступа, страницу, содержащую множество случайных поддельных адресов электронной почты и ссылки на большее количество таких страниц. Чтобы сохранить законные поисковые роботы в ловушке, я установил правило robots.txt, показанное выше, запретив все пространство как ссылок редиректора, так и ловушек.

Однако недавно один из людей в клубе искал Google для своего имени и был очень удивлен, когда один из результатов на первой странице был ссылкой на сценарий редиректора с заголовком, состоящим из их e- mail, а затем my . Конечно, они сразу же отправили мне по электронной почте и хотели узнать, как получить их адрес из индекса Google. Я тоже был очень удивлен, так как я понятия не имел, что Google индексирует такие URL вообще, по-видимому, нарушая мое правило robots.txt.

Мне удалось отправить запрос на удаление в Google, и, похоже, он сработал, но я хотел бы знать, почему и как Google обходит мой robots.txt, как это, и как убедитесь, что ни одна из запрещенных страниц не будет отображаться в результатах поиска.

Ps. Я действительно нашел возможное объяснение и решение, которое я опубликую ниже, при подготовке этого вопроса, но Я думал, что все равно прошу об этом , если у кого-то может быть такая же проблема. Пожалуйста, не стесняйтесь публиковать свои собственные ответы. Мне также было бы интересно узнать, делают ли другие поисковые системы и то же ли решение для них тоже.

17 голосов | спросил Ilmari Karonen 15 Jam1000000amSun, 15 Jan 2012 04:29:24 +040012 2012, 04:29:24

2 ответа


22

Похоже, что Google намеренно включает URL-адреса, запрещенные в robots.txt в своем индексе, если есть ссылки на эти URL-адреса с других страниц, которые они просканировали. Чтобы указать их страницы справки для веб-мастеров :

  

«Хотя Google не будет сканировать или индексировать содержимое страниц, заблокированных с помощью файла robots.txt, мы все равно можем индексировать URL-адреса, если мы найдем их на других страницах в Интернете. В результате URL-адрес страницы и, потенциально, в результатах поиска Google может появиться другая общедоступная информация, такая как якорный текст в ссылках на сайт, или заголовок из Open Directory Project (www.dmoz.org).

По-видимому, Google интерпретирует директиву Disallow в robots.txt как запрет на обход страницы, а не против индексации это. Я полагаю, что это технически обоснованная интерпретация, даже если она делает для меня сугубо правил.

В этой статье интервью Мэтт Каттс из Google дает немного больше информации и предоставляет разумное объяснение того, почему они это делают:

  

«В первые дни многие очень популярные сайты вообще не хотели, чтобы их просканировали. Например, eBay и New York Times не разрешали поисковой системе или, по крайней мере, не Google сканировать любые страницы из В Библиотеке Конгресса были различные разделы, в которых говорилось, что вам не разрешают ползать с помощью поисковой системы. И вот, когда кто-то пришел в Google, и они набрали eBay, и мы не проползли eBay, и мы не смогли вернуться eBay, мы выглядели немного субоптимально. Итак, компромисс, который мы решили придумать, заключался в том, что мы не сканировали бы вас из robots.txt, но мы могли бы вернуть эту ссылку, которую мы видели ».

Решение , рекомендованное на обеих этих страницах, - это добавить noindex meta tag на страницы, которые вы не хотите индексировать. (HTTP-заголовок X-Robots-Tag должен также работать для страниц, отличных от HTML. Однако я не уверен, работает ли он на перенаправлениях.) Парадоксально, это означает, что вы должны разрешить Googlebot сканировать эти страницы (либо полностью удалив их из robots.txt, либо добавив отдельный, более разрешительный набор правил для робота Google), поскольку в противном случае он не может видеть метатег в первую очередь.

Я отредактировал свой сценарий переадресации /паука для отправки как метатега, так и заголовка X-Robots-Tag со значением noindex,nofollow и разрешил Googlebot для сканирования URL-адреса скрипта в моем robots.txt. Мы увидим, работает ли он, когда Google повторно индексирует мой сайт.

ответил Ilmari Karonen 15 Jam1000000amSun, 15 Jan 2012 04:53:52 +040012 2012, 04:53:52
4

Правда, пока это не должно препятствовать Google (и хорошим ботам) обходить эти страницы и читать их содержимое, они могут по-прежнему показывать ссылку URL-адреса в результатах поиска, если они связаны, формы:

URL-адрес только в результатах поиска Google

Как вы можете видеть, нет названия или описания, это буквально только URL. Естественно, эти типы результатов обычно исключаются из SERP, если вы явно не ищете их.

И как вы отметите в своем ответе, если вы не хотите, чтобы URL-адрес отображался вообще в SERP, вам нужно разрешить роботы, но включать метатег noindex.

ответил MrWhite 4 thEurope/Moscowp30Europe/Moscow09bEurope/MoscowTue, 04 Sep 2012 02:18:33 +0400 2012, 02:18:33

Похожие вопросы

Популярные теги

security × 330linux × 316macos × 2827 × 268performance × 244command-line × 241sql-server × 235joomla-3.x × 222java × 189c++ × 186windows × 180cisco × 168bash × 158c# × 142gmail × 139arduino-uno × 139javascript × 134ssh × 133seo × 132mysql × 132