Странный Bingbot попадает в мои журналы доступа к сайту

Я вижу много просмотров на моем сайте недавно в журналах доступа, и я не уверен, что с ними делать. Страницы, которые они пытаются достичь, не существуют, и они говорят, что они приходят из Bingbot, но я не думаю, что это bing IP-адреса. У кого-нибудь есть идеи о том, как я должен обращаться с ними либо через htaccess, либо сообщая об этом в Bing?

66.249.69.1 - - [11/Aug/2016:07:41:23 -0400] "GET /index.php/write-academic-papers-for-money/js/jquery-1.8.2.min.js HTTP/1.1" 200 10014 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com /bot.html)"
70.208.74.141 - - [11/Aug/2016:07:41:28 -0400] "GET /images/ways.jpg HTTP/1.1" 200 188202 "http://tt.tennis- warehouse.com/index.php?threads/nice-mean-pros-on-tour.570480/" "Mozilla/5.0 (iPhone; CPU iPhone OS 8_2 like Mac OS X) AppleWebKit/600.1.4 (KHTML, like Gecko) Version/8.0 Mobile/12D508 Safari/600.1.4"
40.77.167.6 - - [11/Aug/2016:07:41:30 -0400] "GET /index.php/buy-research-paper-no-plagiarism/gifts-gear.php HTTP/1.1" 200 9866 "-" "Mozilla/5.0 (compatible; bingbot/2.0;)"
3 голоса | спросил JayDub 11 PM00000070000004931 2016, 19:50:49

1 ответ


2

Все 3 записи журнала, все они выглядят как законный трафик (как IP-адреса Google, так и Bing), и, как уже указывал closetnoc, только последний ссылается на Bingbot.

  

Страницы, которые они пытаются достичь, не существуют

Но ваш сервер возвращает статус 200 OK, что потенциально позволяет индексировать эти URL-адреса поисковыми системами. Если эти URL-адреса возвратили 404 Not Found, это не будет такой проблемой.

Похоже, ваш сайт был нацелен на XSS-подобную атаку, чтобы создавать спам-ссылки в SERP для ключевых слов, которые не имеют отношения к вашему сайту.

  

Есть ли что-то, что я могу сделать для предотвращения любых запросов /index.php/XXXXXX

Да. Дополнительный XXXXXX в URL после действительного имени файла: информация о пути (PATH_INFO). По умолчанию поведение Apache обычно позволяет эту дополнительную информацию о пути (хотя это зависит от обработчика).

Однако это можно отключить с помощью директивы AcceptPathInfo в конфигурации вашего сервера или файла .htaccess. Например:

AcceptPathInfo Off

Это приведет к тому, что Apache вернет ошибку 404 NOT FOUND для таких запросов.

Apache docs ...
https: //httpd. apache.org/docs/2.4/mod/core.html#acceptpathinfo


В зависимости от структуры вашего веб-сайта вы можете просто заблокировать любые прямые запросы до index.php. Что-то вроде следующего, используя mod_rewrite в корневом файле .htaccess:

RewriteEngine On
RewriteCond %{THE_REQUEST} ^GET\ /index\.php [NC]
RewriteRule ^index\.php - [F]

Для этого потребуется перед любыми директивами маршрутизации URL (например, WordPress).

THE_REQUEST содержит только заголовок начального запроса, поэтому вы все еще в порядке, чтобы внутренне переписать на index.php, если вы используете передний контроллер (например).

ответил MrWhite 11 PM00000090000000031 2016, 21:33:00

Похожие вопросы

Популярные теги

security × 330linux × 316macos × 2827 × 268performance × 244command-line × 241sql-server × 235joomla-3.x × 222java × 189c++ × 186windows × 180cisco × 168bash × 158c# × 142gmail × 139arduino-uno × 139javascript × 134ssh × 133seo × 132mysql × 132