Исправьте сторонние выскабливания, но разрешите Google сканирование

Как сделать очистку собственного контента с помощью wget, httrack и т. д. невозможным, но разрешить сканирование через googlebot?

Это должно быть сделано без отображения googlebot другого контента, как и для других пользовательских агентов.

И, пожалуйста, лучше избегайте распознавания IP-адресов в ваших советах, если это вообще возможно!

В текущей настройке он работает уже на основе распознавания IP, и сервер периодически идет вниз. Настройка похожа:

  • первый уровень: nginx как кеширование,
  • второй уровень: apache с mod_security. mod_security делает IP-распознавание и управляет трафиком,
  • третий уровень: tomcat с CMS).

Основным узким местом в настоящее время является mod_security и, отчасти, путь от mod_security к tomcat. Изменение установки вне многообразия, включая жизнеспособные решения.

3 голоса | спросил Evgeniy 26 PMpWed, 26 Apr 2017 17:02:04 +030002Wednesday 2017, 17:02:04

1 ответ


2

Практически невозможно исключить сторонние выскабливания. Первая строка защиты - файл robots.txt:

User-Agent: Googlebot
Disallow: 

User-Agent: *
Disallow: /

Это будет запрещено всем искателям, кроме робота Google, который подчиняется robots.txt.

ответил Stephen Ostermiller 20 J0000006Europe/Moscow 2017, 13:49:45

Похожие вопросы

Популярные теги

security × 330linux × 316macos × 2827 × 268performance × 244command-line × 241sql-server × 235joomla-3.x × 222java × 189c++ × 186windows × 180cisco × 168bash × 158c# × 142gmail × 139arduino-uno × 139javascript × 134ssh × 133seo × 132mysql × 132