Какой агент пользователя я должен установить?

Здесь задан бот, который устанавливает этот заголовок:

Mozilla/2.0 (compatible; Ask Jeeves/Teoma) 

Учитывая это, у меня есть следующие вопросы:

  • Если я пишу веб-искатель с именем Goofy, какой пользовательский агент должен использовать?
  • В чем разница, если я ставлю Mozilla/2.0 или Mozilla/5.0?

Любые другие предложения о том, как отформатировать мой пользовательский агент для соответствия действующим стандартам, более чем приветствуются.

17 голосов | спросил Nicolae Surdu 2 ThuEurope/Moscow2010-12-02T22:56:10+03:00Europe/Moscow12bEurope/MoscowThu, 02 Dec 2010 22:56:10 +0300 2010, 22:56:10

3 ответа


29

Я - главный разработчик и автор довольно масштабного веб-искателя (см. http://metadatalabs.com/mlbot ). То, что вы просите, затрагивает тему, которая очень важна для нас - возможно, самая важная часть запуска искателя: это вежливость.

Во-первых: причина для «Mozilla» заключается в том, чтобы сообщить сайту, что такое ваши возможности браузера. Если ваш бот не пытается действовать как браузер, нет особых причин, по которым вам нужно включить «Mozilla».

Что касается вашей строки пользовательского агента и других элементов, связанных с вежливостью:

  1. Выберите имя, которое, как вы знаете, никто не использует. Я подозреваю, что если вы используете «Goofybot», со мной все будет в порядке. Но я бы проверял это, чтобы быть уверенным.

  2. Строка вашего пользовательского агента должна содержать ссылку на дополнительную информацию о боте. Например, наша строка читает «MLBot (www.metadatalabs.com/mlbot)».

  3. Убедитесь, что если кто-то ищет «Goofybot», эта страница высока (желательно сначала) в результатах поиска.

  4. Ваша страница о боте должна указать, для чего вы используете информацию, какие IP-адреса вы сканируете, и включить способ общения с вами о проблемах с ботом.

  5. Вы должны быстро реагировать на любые вопросы или жалобы, используя философию «клиент всегда прав». Помните, если ваш бот вызвал проблему, о которой этот человек жалуется, то это, вероятно, вызвало проблемы на десятке других сайтов, на которые никто не жаловался. Они либо не видели проблем, либо просто клали блок на ваш IP-адрес.

  6. В этом случае вы должны создать средства, чтобы ваш бот не мог получить доступ к определенному доменному имени. Некоторые люди не хотят, чтобы вы ползали вообще и не имели доступа или технических возможностей для создания файла robots.txt или блока в .htaccess. Мы обнаружили, что эта способность позволяет нам рассказать кому-то: «Мы сожалеем, что MLBot вызвал проблему. Мы указали, что вам никогда не придется сканировать ваш сайт». Возможно, неудивительно, что это очень быстро успокаивает людей.

  7. Если вы еще не уважаете robots.txt, сделайте это. Ничто не даст вам плохую репутацию быстрее, чем игнорировать файл robots.txt.

Ого. Это продолжалось дольше, чем я ожидал. За последние четыре года я сделал все эти ошибки, о которых я говорил выше, и другие, кроме того. Однако мы обнаружили, что, если мы открыты к тому, что мы делаем и честно сообщаем (включая публикацию информации об ошибках, прежде чем мы получаем жалобы), большинство веб-мастеров считают нас хорошим гражданином Интернета.

ответил Jim Mischel 4 SatEurope/Moscow2010-12-04T19:35:07+03:00Europe/Moscow12bEurope/MoscowSat, 04 Dec 2010 19:35:07 +0300 2010, 19:35:07
8

Mozilla /2.0 и Mozilla /5.0 являются ссылками на браузер Mozilla. Это стало в значительной степени бессмысленным, и многие сканеры использовали его, но должны сообщать сайту об обработке вашего искателя, как если бы любой случайный пользователь просматривал его с помощью обычного браузера.

Однако хороший этикет должен включать URL-адрес, ссылающийся на страницу о том, кто вы и почему вы сканируете в следующем разделе. Попросите Дживса уйти от имени, но вы должны указать URL-адрес.

например.

Mozilla/5.0 (compatible; http://example.org/)

Это позволит администраторам сети понять, почему вы сканируете их сайт, а также связаться с вами, если есть проблемы с тем, как работает ваш искатель.

ответил Kris 3 FriEurope/Moscow2010-12-03T01:09:21+03:00Europe/Moscow12bEurope/MoscowFri, 03 Dec 2010 01:09:21 +0300 2010, 01:09:21
3
ответил Dave 2 ThuEurope/Moscow2010-12-02T23:25:01+03:00Europe/Moscow12bEurope/MoscowThu, 02 Dec 2010 23:25:01 +0300 2010, 23:25:01

Похожие вопросы

Популярные теги

security × 330linux × 316macos × 2827 × 268performance × 244command-line × 241sql-server × 235joomla-3.x × 222java × 189c++ × 186windows × 180cisco × 168bash × 158c# × 142gmail × 139arduino-uno × 139javascript × 134ssh × 133seo × 132mysql × 132