Страница, заблокированная robots.txt, отображается на сайте: результаты поиска с описанием, которое представляет собой сочетание китайского, английского и немецкого языков
Я нашел странный результат поиска для ресурса, заблокированного robots.txt
.
Почему есть китайский (догадавшийся) текст, за которым следует текст Hello nighthawk!
. Это esteregg Google?
Вчера я попытался удалить URL из Google с помощью Инструментов для веб-мастеров.
Не было Hello Nighthawk!
, только сообщение «заблокировано с помощью robots.txt». Об этом сообщается соквалификатором.
Это содержимое robots.txt
:
User-agent: *
Disallow: /en
Домены перенаправляются следующим образом:
www.domain.com/en -> (301) https://domain.com/en
Страница https://domain.com/en
показывает нормальную страницу с правильным заголовком страницы.
Заголовок domain.com/en
не содержит ни одного слова.
Я искал весь проект, чтобы найти слово «ночной ястреб». Он не включен. И у нас никогда не было китайских переводов.
2 ответа
Google включает нераспознаваемые страницы в индексе, когда они связаны с другими сайтами.
Это означает, что в результатах поиска может отображаться ссылка на веб-сайт, например <a href="domain.com/en">[CHINESE] - Hey nighthawk</a>
.
Некоторые предположили, что такие случаи являются временными. Они не всегда. Google индексирует нерасширяемые страницы, потому что иногда важные страницы блокируются с помощью robots.txt. Мэтт Каттс объясняет :
Вы можете задаться вопросом, почему Google иногда возвращает ссылку на нераскрытый URL-адрес, даже если роботу Googlebot запретили сканирование этого URL-файла с помощью файла robots.txt. Для этого есть довольно веская причина: назад, когда я начал работать в Google в 2000 году, несколько полезных веб-сайтов (eBay, New York Times, California DMV) имели файлы robots.txt, которые запрещали какие-либо страницы. Теперь я спрашиваю вас, что мы должны возвращать в качестве результата поиска, когда кто-то делает запрос [california dmv]? Мы выглядели бы довольно грустно, если бы мы не вернули www.dmv.ca.gov в качестве первого результата. Но помните: нам не разрешалось брать страницы с сайта www.dmv.ca.gov. Решение заключалось в том, чтобы показать нераскрытую ссылку, когда у нас был высокий уровень уверенности в правильности ссылки.
Вероятно, вы не увидите эту страницу из результатов поиска, кроме запроса site:
. В противном случае кому-то придется искать [CHINESE] Hey nighthawk
или его часть.
robots.txt предотвращает невозможность страниц
Вы читаете это правильно.
Сделайте страницу crawlable и unindexable
Чтобы убедиться, что страница не отображается в результатах поиска Google, убедитесь, что она является crawlable от robots.txt и явно unindexable.
Общепринятой практикой является использование файла robots.txt для того, чтобы страницы не отображались в индексах поисковых систем. Однако, чтобы страница не индексировалась, она должна быть сканируемой.
Google (и Bing) исключает страницу из индекса, если она указана на странице. Это может быть HTTP-заголовок X-Robots-Tag, или метатег noindex в HTML.
Но робот Googlebot не может прочитать эти инструкции, если robots.txt запрещает им читать страницу. Таким образом, Google использует преимущества сомнений и помещает страницу в индекс (если нравится).
Вот как Google объясняет это :
После того как файл robots.txt (или отсутствие одного) дал разрешение на сканирование страницы, страницы по умолчанию обрабатываются как сканируемые, индексируемые, архивируемые , а их содержимое одобрено для использования в фрагментах, которые отображаются в результатах поиска, если только разрешение специально не запрещено в метатеге роботов или X-Robots-Tag.
Половина исправлений Google
Инструменты Google для веб-мастеров можно использовать в временно удалить страницу из индекса Google . Но нет времени на то, как долго удаляется. Это не решение.
Google также имеет экспериментальную функцию без индекса в файле robots.txt , который предназначен для того, чтобы веб-мастера могли быть как незаполненными, так и неиндексируемыми. Поскольку Google не дает никаких гарантий относительно его функциональности, используйте на свой страх и риск.
Кроме того, имейте в виду, что другие поисковые системы не поддерживают директивы no-index внутри robots.txt. Документация веб-мастеров Bing гласит:
Чтобы удалить URL-адрес со своего сайта из индекса Bing ... Bingbot должен иметь доступ к URL-адресу, поэтому вам не следует блокировать повторный обход URL-адреса через robots.txt.
Что такое robots.txt для?
robots.txt предназначен как решение для обеспечения того, чтобы роботы поисковых систем не наносили нежелательный трафик на веб-сайтах - этот трафик может нести гонорары с веб-хостинга или (если ваш сайт является хрупким) может вызвать проблемы с производительностью или стабильностью ,
Это (якобы) отдельные проблемы из-за того, что вы не хотите, чтобы ваши страницы находились в поиске пользователями в Google.
О тарабарщине, связанной с вашей страницей в результатах поиска
Неправильный контент в результатах поиска, связанный с вашей страницей, может быть получен из текста привязки страниц, связанных с вашим сайтом. Поскольку страница uncrawlable , эта информация из вторых рук может быть лучшей доступной информацией, которую Google имеет о содержании вашей страницы.
Казалось бы, часть контента, связанного с вашим сайтом, связана с более мрачными областями Интернета. Эти места могут быть связаны с вашим сайтом по ряду причин, большинство из которых связаны с попытками связать себя с вашей хорошей репутацией.