Страница, заблокированная robots.txt, отображается на сайте: результаты поиска с описанием, которое представляет собой сочетание китайского, английского и немецкого языков

Я нашел странный результат поиска для ресурса, заблокированного robots.txt. Почему есть китайский (догадавшийся) текст, за которым следует текст Hello nighthawk!. Это esteregg Google?

 Google Hello Nighthawks

Вчера я попытался удалить URL из Google с помощью Инструментов для веб-мастеров. Не было Hello Nighthawk!, только сообщение «заблокировано с помощью robots.txt». Об этом сообщается соквалификатором.

 Сообщить о проблеме

Это содержимое robots.txt:

User-agent: * Disallow: /en

Домены перенаправляются следующим образом:

www.domain.com/en -> (301) https://domain.com/en

Страница https://domain.com/en показывает нормальную страницу с правильным заголовком страницы.

Заголовок domain.com/en не содержит ни одного слова. Я искал весь проект, чтобы найти слово «ночной ястреб». Он не включен. И у нас никогда не было китайских переводов.

5 голосов | спросил Mark 20 +03002016-10-20T22:35:33+03:00312016bEurope/MoscowThu, 20 Oct 2016 22:35:33 +0300 2016, 22:35:33

2 ответа


8

Google включает нераспознаваемые страницы в индексе, когда они связаны с другими сайтами.

Это означает, что в результатах поиска может отображаться ссылка на веб-сайт, например <a href="domain.com/en">[CHINESE] - Hey nighthawk</a>.

Некоторые предположили, что такие случаи являются временными. Они не всегда. Google индексирует нерасширяемые страницы, потому что иногда важные страницы блокируются с помощью robots.txt. Мэтт Каттс объясняет :

  

Вы можете задаться вопросом, почему Google иногда возвращает ссылку на нераскрытый URL-адрес, даже если роботу Googlebot запретили сканирование этого URL-файла с помощью файла robots.txt. Для этого есть довольно веская причина: назад, когда я начал работать в Google в 2000 году, несколько полезных веб-сайтов (eBay, New York Times, California DMV) имели файлы robots.txt, которые запрещали какие-либо страницы. Теперь я спрашиваю вас, что мы должны возвращать в качестве результата поиска, когда кто-то делает запрос [california dmv]? Мы выглядели бы довольно грустно, если бы мы не вернули www.dmv.ca.gov в качестве первого результата. Но помните: нам не разрешалось брать страницы с сайта www.dmv.ca.gov. Решение заключалось в том, чтобы показать нераскрытую ссылку, когда у нас был высокий уровень уверенности в правильности ссылки.

Вероятно, вы не увидите эту страницу из результатов поиска, кроме запроса site:. В противном случае кому-то придется искать [CHINESE] Hey nighthawk или его часть.

ответил Stephen Ostermiller 21 +03002016-10-21T01:00:11+03:00312016bEurope/MoscowFri, 21 Oct 2016 01:00:11 +0300 2016, 01:00:11
5

robots.txt предотвращает невозможность страниц

Вы читаете это правильно.

Сделайте страницу crawlable и unindexable

Чтобы убедиться, что страница не отображается в результатах поиска Google, убедитесь, что она является crawlable от robots.txt и явно unindexable.

Общепринятой практикой является использование файла robots.txt для того, чтобы страницы не отображались в индексах поисковых систем. Однако, чтобы страница не индексировалась, она должна быть сканируемой.

Google (и Bing) исключает страницу из индекса, если она указана на странице. Это может быть HTTP-заголовок X-Robots-Tag, или метатег noindex в HTML.

Но робот Googlebot не может прочитать эти инструкции, если robots.txt запрещает им читать страницу. Таким образом, Google использует преимущества сомнений и помещает страницу в индекс (если нравится).

Вот как Google объясняет это :

  

После того как файл robots.txt (или отсутствие одного) дал разрешение на сканирование страницы, страницы по умолчанию обрабатываются как сканируемые, индексируемые, архивируемые , а их содержимое одобрено для использования в фрагментах, которые отображаются в результатах поиска, если только разрешение специально не запрещено в метатеге роботов или X-Robots-Tag.

Половина исправлений Google

Инструменты Google для веб-мастеров можно использовать в временно удалить страницу из индекса Google . Но нет времени на то, как долго удаляется. Это не решение.

Google также имеет экспериментальную функцию без индекса в файле robots.txt , который предназначен для того, чтобы веб-мастера могли быть как незаполненными, так и неиндексируемыми. Поскольку Google не дает никаких гарантий относительно его функциональности, используйте на свой страх и риск.

Кроме того, имейте в виду, что другие поисковые системы не поддерживают директивы no-index внутри robots.txt. Документация веб-мастеров Bing гласит:

  

Чтобы удалить URL-адрес со своего сайта из индекса Bing ... Bingbot должен иметь доступ к URL-адресу, поэтому вам не следует блокировать повторный обход URL-адреса через robots.txt.

Что такое robots.txt для?

robots.txt предназначен как решение для обеспечения того, чтобы роботы поисковых систем не наносили нежелательный трафик на веб-сайтах - этот трафик может нести гонорары с веб-хостинга или (если ваш сайт является хрупким) может вызвать проблемы с производительностью или стабильностью ,

Это (якобы) отдельные проблемы из-за того, что вы не хотите, чтобы ваши страницы находились в поиске пользователями в Google.

О тарабарщине, связанной с вашей страницей в результатах поиска

Неправильный контент в результатах поиска, связанный с вашей страницей, может быть получен из текста привязки страниц, связанных с вашим сайтом. Поскольку страница uncrawlable , эта информация из вторых рук может быть лучшей доступной информацией, которую Google имеет о содержании вашей страницы.

Казалось бы, часть контента, связанного с вашим сайтом, связана с более мрачными областями Интернета. Эти места могут быть связаны с вашим сайтом по ряду причин, большинство из которых связаны с попытками связать себя с вашей хорошей репутацией.

ответил Tim Grant 21 +03002016-10-21T04:59:29+03:00312016bEurope/MoscowFri, 21 Oct 2016 04:59:29 +0300 2016, 04:59:29

Похожие вопросы

Популярные теги

security × 330linux × 316macos × 2827 × 268performance × 244command-line × 241sql-server × 235joomla-3.x × 222java × 189c++ × 186windows × 180cisco × 168bash × 158c# × 142gmail × 139arduino-uno × 139javascript × 134ssh × 133seo × 132mysql × 132