Как настроить robots.txt, чтобы разрешить все?

Мой robots.txt в Инструментах Google для веб-мастеров показывает следующие значения:

User-agent: *
Allow: /

Что это значит? У меня нет достаточно знаний об этом, поэтому ищу вашу помощь. Я хочу разрешить всем роботам сканировать мой сайт, это правильная конфигурация?

96 голосов | спросил Raajpoot 25 42010vEurope/Moscow11bEurope/MoscowThu, 25 Nov 2010 15:16:17 +0300 2010, 15:16:17

4 ответа


0

Этот файл разрешит доступ всем сканерам

User-agent: *
Allow: /

Это в основном позволяет всем пользовательским агентам (*) обращаться ко всем частям сайта (/).

ответил Jim 25 42010vEurope/Moscow11bEurope/MoscowThu, 25 Nov 2010 15:23:42 +0300 2010, 15:23:42
0

Если вы хотите, чтобы каждый бот сканировал все, это лучший способ указать это в файле robots.txt:

 User-agent: *
Disallow:

Обратите внимание, что поле Disallow имеет пустое значение, что означает в соответствии со спецификацией :

  

Любое пустое значение указывает, что все URL-адреса могут быть получены.


Ваш путь (с Allow: / вместо Disallow:) тоже работает, но Allow не является частью оригинальная спецификация robots.txt , поэтому она поддерживается не всеми ботами (хотя многие популярные поддерживают ее, как Googlebot ) Тем не менее, нераспознанные поля должны игнорироваться, и для ботов, которые не распознают Allow, результат будет таким же в этом случае в любом случае: если ничего не запрещено сканировать (с помощью Disallow), все разрешено сканировать.
Однако формально (согласно исходной спецификации) это недопустимая запись, поскольку требуется хотя бы одно поле Disallow:

  

В записи должно быть хотя бы одно поле Disallow.

ответил unor 10 J0000006Europe/Moscow 2017, 00:48:30
0

Я понимаю, что это довольно старый вопрос и на него есть довольно хорошие ответы. Но вот мои два цента ради полноты.

Согласно официальной документации , есть четыре способа, которыми вы можете разрешить полный доступ для роботы для доступа к вашему сайту.

Очистить

Укажите глобальное сопоставление с запрещенным сегментом, как упомянуто @unor. Итак, ваш /robot.txt выглядит следующим образом.

User-agent: *
Disallow:

Хак:

Создайте файл /robot.txt без содержимого. Который по умолчанию будет разрешать все для всех типов Bots.

Мне все равно:

Не создавайте /robot.txt в целом. Который должен дать те же результаты, что и два предыдущих.

Уродливый:

Из документации роботов для метатегов вы можете использовать следующий метатег на всех своих страницах сайта, чтобы Bots знали, что эти страницы не должны быть проиндексированы.

<META NAME="ROBOTS" CONTENT="NOINDEX">

Чтобы это применилось ко всему сайту, вам нужно добавить этот метатег для всех ваших страниц. И этот тег должен быть строго размещен под вашим тегом HEAD страницы. Подробнее об этом метатеге здесь .

ответил Raja Anbazhagan 25 MonEurope/Moscow2017-12-25T09:58:08+03:00Europe/Moscow12bEurope/MoscowMon, 25 Dec 2017 09:58:08 +0300 2017, 09:58:08
0

Это означает, что вы разрешаете каждому (*) юзер-агенту /сканеру доступ к корню (/) вашего сайта. Ты в порядке.

ответил Jordi 25 42010vEurope/Moscow11bEurope/MoscowThu, 25 Nov 2010 15:24:57 +0300 2010, 15:24:57

Похожие вопросы

Популярные теги

security × 330linux × 316macos × 2827 × 268performance × 244command-line × 241sql-server × 235joomla-3.x × 222java × 189c++ × 186windows × 180cisco × 168bash × 158c# × 142gmail × 139arduino-uno × 139javascript × 134ssh × 133seo × 132mysql × 132