Как сообщить поисковым системам, что они не индексируют весь домен изображения, не теряя при этом пропускную способность сервера или делая жалобу Google

Из того, что я узнал, есть один способ, которым я мог бы привести все URL-адреса в домене, строго обслуживающие изображения, которые не должны индексироваться, а также с HTTP-заголовком x-robots-tag. Теперь я проверяю свои журналы и узнаю, что google и даже baidu загружают все содержимое URL-адресов изображений. Я надеялся, что они перестанут загружаться, когда наткнутся на эту строку:

X-Robots-Tag: noindex, noimageindex

Либо я отформатировал эту строку неправильно (использовал неправильную оболочку или неправильный порядок значений или что-то еще), либо поисковые системы просто тупые, и они просто решили загрузить все, чтобы тратить деньги клиента.

Я просмотрел файл robots.txt и подумал об использовании строки noindex, но когда я это сделал, google жаловался на отсутствие доступа к тому, что они называют «важным URL», когда это не важно.

Я не хочу блокировать их IP-адреса, потому что у меня есть текстовый контент в другом домене, запущенном на том же сервере, который я хочу, чтобы они индексировались.

У меня возникает соблазн предложить поисковым системам эквивалент того, что получают пользователи, если они запросили URL-адрес с помощью метода HEAD (полные заголовки, но без фактического содержимого), но я могу получить наказание за клонирование контента.

Есть ли что-то, что я могу сделать, чтобы исправить это?

2 голоса | спросил Mike 2 +03002015-10-02T23:32:07+03:00312015bEurope/MoscowFri, 02 Oct 2015 23:32:07 +0300 2015, 23:32:07

2 ответа


1

Самый эффективный способ сделать это - использовать файл robots.txt с Disallow: / как единственную директиву и поместить его в веб-корень для домена изображений. Когда это будет сделано, поисковые системы не будут сканировать изображения. Причина, по которой вы получили сообщение об ошибке Google, была только потому, что это была компьютерная оценка, которая считала, что изображения, возможно, были необходимы для сканирования, но это по вашему усмотрению. Поскольку вы не хотите, чтобы изображения были проиндексированы, вы можете спокойно проигнорировать эту ошибку от Google, поскольку это означает, что изображения не будут сканироваться, что вам нужно.

ответил Chris Rutherfurd 17 PMpMon, 17 Apr 2017 15:03:41 +030003Monday 2017, 15:03:41
0

Google поддерживает Noindex: в файле robots.txt. См. Как работает «Noindex:» в файле robots.txt? Это бета-функция, хотя они могут удалить поддержку для нее. Из-за этого я бы использовал файл robots.txt :

User-Agent: *
Disallow: /

User-Agent: Googlebot
Noindex: /

User-Agent: bingbot
Disallow:

User-agent: Yahoo! Slurp
Disallow:

User-agent: Yandex
Disallow:

Наряду с заголовком, который вы упомянули в своем вопросе:

X-Robots-Tag: noindex, noimageindex

В этом случае только три паука сканируют ваш контент, чтобы узнать, что они не могут его индексировать. Googlebot не будет сканировать или индексировать. Бонусы без поисковых систем даже не будут разрешены для сканирования.

Если Googlebot перестанет поддерживать Noindex:, он начнет сканирование и узнает, что он не может индексировать.

ответил Stephen Ostermiller 17 Maypm17 2017, 17:33:43

Похожие вопросы

Популярные теги

security × 330linux × 316macos × 2827 × 268performance × 244command-line × 241sql-server × 235joomla-3.x × 222java × 189c++ × 186windows × 180cisco × 168bash × 158c# × 142gmail × 139arduino-uno × 139javascript × 134ssh × 133seo × 132mysql × 132