Может ли Google сканировать URL-адрес (скажем, какой-то статический HTML-файл), который не имеет ссылки на указатель? [Дубликат]

  

Возможный дубликат:
Возможно ли, чтобы веб-сканеры видели статические страницы без ссылки на них?

У меня есть некоторые URL-адреса (некоторые pdf-файлы и статические HTML-файлы) на моем веб-сайте, о которых я хочу знать лишь немногим. Эти URL-адреса не содержат ссылок с моего сайта или любого другого источника.

Итак, мой вопрос таков: Может ли Google сканировать URL-адрес (скажем, какой-то статический HTML-файл), у которого нет входящей ссылки?

5 голосов | спросил Thale 24 FebruaryEurope/MoscowbFri, 24 Feb 2012 14:26:29 +0400000000pmFri, 24 Feb 2012 14:26:29 +040012 2012, 14:26:29

3 ответа


5

Обычно нет, но вы должны быть уверены, что URL-адрес не присутствует нигде в Интернете, в вашем файле Sitemap, если вы его публикуете. Вы также должны быть осторожны в статистике доступа к веб-серверу, если вы сделаете их общедоступными.

Кроме того, вы всегда можете использовать файл robot.txt, чтобы сообщить Google не сканировать URL-адреса.

Но это просто защита от обфускации, если вы действительно хотите защитить их правильно (аутентификация /авторизация)

ответил Matteo 24 FebruaryEurope/MoscowbFri, 24 Feb 2012 15:15:16 +0400000000pmFri, 24 Feb 2012 15:15:16 +040012 2012, 15:15:16
5
  

Да, Google найдет это как-то!

Они отслеживают историю браузера /поиска людей через учетные записи Google /Панели инструментов /Социальные сети и т. п. - затем используйте эти данные для увеличения и определения приоритетов своего искателя.

Таким образом, если пользователь посещает вашу страницу во время входа в учетную запись google, отслеживая ее отслеживание истории поиска, Google может узнать о вашей странице. Вы также не можете контролировать, что пользователи публикуют на сайтах социальных сетей и т. П.

Вы можете запретить его включение в индекс google, но robots.txt , простой текстовый файл который находится в корневом каталоге www вашего сервера, остановит GoogleBot на своих треках.

Поместите свои страницы без google в один каталог и исключите следующее: -

User-agent: *
Disallow: /your-directory-name/

Как @Matteo и @Zaph отмечают, что это не настоящая защита и не остановит определенных пользователей, которые ищут ваш контент. Я использую htpasswd , чтобы блокировать области на моих сайтах в сочетании с Coffee Cup Website Access Manager , который выводит хешированные htpasswd-файлы и загружает их на ваш сайт и предоставляет несколько управления пользователями.

ответил toomanyairmiles 24 FebruaryEurope/MoscowbFri, 24 Feb 2012 15:16:13 +0400000000pmFri, 24 Feb 2012 15:16:13 +040012 2012, 15:16:13
0

Пока нет входящей ссылки или чего-либо, что может указывать google на файл (sitemap, открыть структуру каталогов и т. д.), тогда я считаю, что он не должен индексироваться. альтернативно вы можете поместить файлы в папку и заблокировать их через файл robots.

ответил Vince Pettit 24 FebruaryEurope/MoscowbFri, 24 Feb 2012 15:14:57 +0400000000pmFri, 24 Feb 2012 15:14:57 +040012 2012, 15:14:57

Похожие вопросы

Популярные теги

security × 330linux × 316macos × 2827 × 268performance × 244command-line × 241sql-server × 235joomla-3.x × 222java × 189c++ × 186windows × 180cisco × 168bash × 158c# × 142gmail × 139arduino-uno × 139javascript × 134ssh × 133seo × 132mysql × 132