Парадокс Sitemap

Мы используем карту сайта для переполнения стека, но у меня есть смешанные чувства.

  

Сканеры Интернета обычно открывают страницы из ссылок на сайте и с других сайтов. Файлы Sitemap дополняют эти данные, чтобы позволить сканерам, которые поддерживают Sitemaps, отображать все URL-адреса в Sitemap и узнавать об этих URL-адресах с использованием связанных метаданных. Использование протокола Sitemap не гарантирует, что веб-страницы включены в поисковые системы, но предоставляет подсказки для веб-сканеров, чтобы лучше выполнять сканирование вашего сайта.

Основываясь на нашем двухлетнем опыте работы с картами, есть что-то принципиально парадоксальное в отношении карты сайта :

  1. Файлы Sitemap предназначены для сайтов, которые трудно сканировать надлежащим образом.
  2. Если Google не может успешно сканировать ваш сайт, чтобы найти ссылку, но может найти его в карте сайта , он не свяжет ссылку с сайтом и не индексирует его!

Это парадокс sitemap - , если ваш сайт не будет правильно сканироваться (по какой-либо причине), использование файла Sitemap не поможет вам!

Google делает все возможное, чтобы сделать нет файлов Sitemap :

  

«Мы не можем делать никаких прогнозов или гарантий относительно того, когда или будут ли ваши URL-адреса сканироваться или добавляться в наш индекс» цитата

     

«Мы не гарантируем, что мы сканируем или индексируем все ваши URL-адреса. Например, мы не будем обходить или индексировать URL-адреса изображений, содержащиеся в вашем Sitemap». цитата

     

"отправка файла Sitemap не гарантирует, что все страницы вашего сайта будут сканироваться или включаться в наши результаты поиска" цитата

Учитывая, что ссылки, найденные в файлах Sitemap, являются просто рекомендациями , тогда как ссылки, найденные на вашем собственном веб-сайте, считаются каноническими ... кажется, единственная логическая задача - avoid имея карту сайта и убедитесь, что Google и любая другая поисковая система могут правильно размещать ваш сайт с использованием простых стандартных веб-страниц, которые все остальные видят.

К тому моменту, когда вы сделали , что , и получите приятный и тщательный вид, чтобы Google мог видеть ваши собственные сайты на этих страницах и был бы готов сканируйте ссылки - ну, зачем нам нужна карта сайта? Карта сайта может быть активно вредной, поскольку она отвлекает вас от того, что поисковые роботы могут успешно сканировать весь ваш сайт. «О, неважно, увидит ли это гусениц, мы просто удалим эти ссылки в карте сайта!» Реальность в нашем опыте совершенно противоположна.

Это кажется более чем немного ироничным, учитывая, что файлы Sitemap были предназначены для для сайтов, которые имеют очень глубокую коллекцию ссылок или сложный пользовательский интерфейс, которые могут быть сложными для пауков. По нашему опыту, карта сайта не помогает, потому что , если Google не может найти ссылку на вашем сайте, она все равно не будет индексировать ее с карты сайта. Мы видели это доказанное время и снова с вопросами о переполнении стека.

Неужели я ошибаюсь? Могут ли иметь место карты, и мы как-то просто их неправильно используем?

240 голосов | спросил Jeff Atwood 2 22010vEurope/Moscow11bEurope/MoscowTue, 02 Nov 2010 02:35:58 +0300 2010, 02:35:58

19 ответов


178

Отказ от ответственности: я работаю вместе с командой Sitemaps в Google, поэтому я несколько предвзято: -).

В дополнение к использованию Sitemaps для контента без веб-индекса (изображения, видео, новости и т. д.) мы используем информацию из URL-адресов, включенных в файлы Sitemap для этих основных целей:

  • Обнаружение нового и обновленного контента (я думаю, это очевидный вариант, и да, мы также подбираем и индексируем ссылки, не связанные с ними)
  • Признание предпочтительных URL-адресов для канонизации ( другие способы обработки канонизации) тоже)
  • Предоставление полезного индексированного URL-адреса в Инструментах для веб-мастеров Google (приближения с сайта: «запросы не используются в качестве показателя»)
  • Предоставление основы для полезных ошибок обхода (если URL-адрес, включенный в файл Sitemap, имеет ошибку обхода, обычно это большая проблема и отображается отдельно в Инструментах для веб-мастеров).

На стороне веб-мастера я также нашел файлы Sitemaps чрезвычайно полезными:

  • Если вы используете искатель для создания файла Sitemaps, вы можете легко проверить, что ваш сайт сканируется и узнать, какие URL-адреса найдены. Является ли искатель поиска предпочтительных URL-адресов или что-то неправильно настроено? Где-то сканер застревает в бесконечных пространствах (например, бесконечные календарные скрипты)? Ваш сервер способен обрабатывать нагрузку?
  • Сколько страниц на вашем сайте действительно есть? Если файл Sitemap «чистый» (без дубликатов и т. Д.), То это легко проверить.
  • Является ли ваш сайт действительно чистым, но не дублируется? Сравните журналы сервера, оставленные роботом Googlebot, с файлом Sitemaps - если Googlebot сканирует URL-адреса, отсутствующие в файле Sitemap, вы можете дважды проверить свою внутреннюю ссылку.
  • На вашем сервере возникают проблемы с вашими предпочтительными URL-адресами? Перекрестная проверка журнала ошибок сервера с URL-адресами Sitemaps может быть весьма полезной.
  • Сколько ваших страниц действительно индексировано? Как упоминалось выше, этот счет отображается в Инструментах для веб-мастеров.

Конечно, для действительно маленьких статических, легко сканируемых сайтов использование Sitemaps может быть ненужным с точки зрения Google после того, как сайт был сканирован и проиндексирован. Для чего бы то ни было, я бы рекомендовал их использовать.

FWIW Есть некоторые заблуждения, которые я хотел бы также затронуть:

  • Файл Sitemap не предназначен для устранения проблем с возможностью сканирования. Если ваш сайт не сканируется, исправьте first .
  • Мы не используем файлы Sitemap для ранжирования.
  • Использование файла Sitemap не уменьшит наш обычный обход вашего сайта. Это дополнительная информация, а не замена для сканирования. Точно так же отсутствие URL-адреса в файле Sitemap не означает, что он не будет проиндексирован.
  • Не суетитесь над метаданными. Если вы не можете предоставить полезные значения (например, для приоритета), оставьте их & не беспокойтесь об этом.
ответил John Mueller 8 12010vEurope/Moscow11bEurope/MoscowMon, 08 Nov 2010 00:03:57 +0300 2010, 00:03:57
37

Если вы знаете, что у вас хорошая архитектура сайта, и Google найдет ваши страницы, естественно, единственным преимуществом, о котором я знаю, является более быстрое индексирование, если ваш сайт индексируется достаточно быстро для вас, тогда не нужно.

Вот статья 2009 года, в которой джентльмены тестировали, как быстро Google сканировал свой сайт с картой сайта и без нее. http://www.seomoz.org/blog/do-sitemaps-effect-crawlers

Мое правило: если вы запускаете что-то новое и непроверенное, вы хотите увидеть, как Google сканирует ваш сайт, чтобы убедиться, что нет ничего, что нужно исправлять, поэтому не отправляйте, однако, если вы делаете изменения и хотят, чтобы Google увидела их быстрее, чем отправить, или если у вас есть другая информация, чувствительная к времени, например, ломающая новости, а затем отправьте, потому что вы хотите сделать все возможное, чтобы убедиться, что вы первый Google видит, в противном случае это вопрос предпочтения .

ответил Joshak 2 22010vEurope/Moscow11bEurope/MoscowTue, 02 Nov 2010 03:13:30 +0300 2010, 03:13:30
14

Я подозреваю: для Google файлы Sitemap необходимы для отслеживания обновлений самым быстрым способом. Например, предположим, вы добавили новый контент в какое-то глубокое место вашего веб-сайта, на которое требуется более 10-20 кликов, чтобы добраться до вашей домашней страницы. Для Google, чтобы достичь этой новой страницы, будет менее вероятно в течение короткого времени - поэтому вместо того, чтобы определить путь к этой странице, объявляется существование . В конце концов, PageRank не вычисляется немедленно, для этого требуется время для оценки поведения пользователя и т. Д., Поэтому до тех пор, почему браузер не должен сканировать и индексировать страницу со свежим контентом?

ответил Shahriyar Imanov 2 22010vEurope/Moscow11bEurope/MoscowTue, 02 Nov 2010 02:53:52 +0300 2010, 02:53:52
8

В словах Google: «В большинстве случаев веб-мастерам будет полезно от подачи Sitemap, и ни в коем случае вы не будете наказаны за него».

Но я согласен с тем, что лучшее, что вы можете сделать, если хотите, чтобы страницы вашего сайта отображались в поисковых системах, - это убедиться, что они сканируются с сайта.

ответил Daniel Alexiuc 2 22010vEurope/Moscow11bEurope/MoscowTue, 02 Nov 2010 02:55:05 +0300 2010, 02:55:05
8

Файлы Sitemap невероятно ценны, если вы правильно их используете.

Во-первых, тот факт, что Google говорит, что это подсказки, существует только для того, чтобы: a) обеспечить, чтобы веб-мастера не находились под ложным впечатлением, что sitemap = индексация и b) дают Google возможность игнорировать определенные файлы Sitemap, если они считают их быть ненадежным (aka lastmod - текущая дата для всех URL-адресов каждый день, к которым они обращаются.)

Однако Google обычно любит и потребляет sitemaps (на самом деле они иногда найдут свои собственные и добавят их в Инструменты Google для веб-мастеров). Зачем? Это повышает эффективность, с которой они могут сканировать.

Вместо того, чтобы запускаться на начальном сайте и обходить веб-страницы, они могут выделять соответствующую сумму своего бюджета обхода на сайт на основе представленных файлов Sitemap. Они также могут создать большую историю вашего сайта с соответствующими данными об ошибках (500, 404 и т. Д.).

От Google:

«Googlebot сканирует веб-страницы, следуя ссылкам с одной страницы на другую, поэтому, если ваш сайт плохо связан, нам может быть трудно обнаружить его».

То, что они не говорят, заключается в том, что обход веб-страниц требует много времени, и они предпочитают иметь чит-лист (aka sitemap).

Конечно, ваш сайт может быть в порядке с точки зрения обхода, но если вы хотите представить новый контент, удаление этого содержимого в карту сайта с высоким приоритетом - это быстрый способ обхода и индексации.

И это тоже работает для Google, так как они хотят найти, сканировать и индексировать новый контент - быстро. Теперь, даже если вы не думаете, что Google предпочитает побитый путь против мачете в джунглях, есть еще одна причина, по которой карты сайта ценны - отслеживание.

В частности, используя индекс sitemap (http://sitemaps.org/protocol.php#index), вы можете разбить свой сайт на разделы - sitemap by sitemap. Поступая таким образом, вы можете посмотреть скорость индексации вашего сайта по разделам.

В одном разделе или типе контента может быть указана скорость индексации 87%, в то время как другая может иметь показатель индексации 46%. Тогда ваша задача выяснить, почему.

Чтобы полностью использовать файлы Sitemap, вы хотите отслеживать сканирование Googlebot (и Bingbot) на своем сайте (через веб-журналы), сопоставлять их с вашими картами сайта, а затем следовать за ним по трафику.

Не ложитесь спать на sitemaps - инвестируйте в них.

ответил AJ Kohn 2 22010vEurope/Moscow11bEurope/MoscowTue, 02 Nov 2010 08:18:22 +0300 2010, 08:18:22
7

Я считаю, что поисковые системы используют карту сайта не столько для поиска страниц, сколько для оптимизации того, как часто они проверяют их на наличие обновлений. Они смотрят на <changefreq> и <lastmod>. Google, вероятно, часто посещает весь сайт (проверьте свои журналы!), Но не у всех поисковых систем есть ресурсы для этого (кто-нибудь пробовал Blekko ?). В любом случае, поскольку для их использования нет штрафа, и они могут быть созданы автоматически и легко, я буду продолжать делать это.

ответил Adam 2 22010vEurope/Moscow11bEurope/MoscowTue, 02 Nov 2010 03:07:40 +0300 2010, 03:07:40
6

Если вы интересуетесь этой темой, прочитайте эту замечательную бумагу Google http://googlewebmastercentral.blogspot.com/2009/04/research-study-of-sitemaps.html (апрель 2009 г.) - прочитайте полный документ, а не только блог-блог.

из статьи

  • ОК, в основном google боролся с тем же вопросом.
  • они не раскрывают, как они определяют значение в файле Sitemap, но они упоминают концепцию виртуальной ссылки с начальной страницы на карту сайта.
  • много других интересных вещей

, но да, карта сайта в основном используется для обнаружения (процесс обнаружения Google ваших вещей), а не для определения значения. если вы работаете с открытием, используйте карту сайта. открытие является предварительным условием для сканирования, но не влияет на определение стоимости.

из моего опыта

  • есть sh * tload сайтов, которые просто используют HTML и XML-файлы Sitemap для взаимодействия их страниц.
  • , и из них карта сайта XML намного лучше сканируется, чем HTML-карта сайта. (я очень хорошо посмотрел на некоторые действительно большие).
  • есть даже очень успешные сайты, которые используют XML-карту сайта.

, когда я реализую стратегию SEO для сайта с более чем полумиллиона страниц, я иду за

  • landingpages
  • sitemap.xml
  • стартовая страница

все остальное просто «баласт» - да, у других вещей может быть положительное значение SEO, но, безусловно, имеет отрицательное значение: он затрудняет управление сайтом. (p.s .: для определения значения i связывание посадочных мест с чувственным способом (большое влияние), но это уже второй шаг).

о вашем вопросе: пожалуйста, не путайте обнаружение, сканирование, индексацию и ранжирование. вы можете отслеживать их все отдельно, и вы можете оптимизировать их все отдельно. и вы можете значительно улучшить обнаружение и сканирование с помощью большой карты (например, в реальном времени).

ответил Franz 2 22010vEurope/Moscow11bEurope/MoscowTue, 02 Nov 2010 12:10:26 +0300 2010, 12:10:26
5

Файлы Sitemap могут сохранять вашу задницу.

На одном из моих сайтов у меня есть большое количество ссылок, которые я мешаю поисковым системам от пауков. Короче говоря, Google неправильно интерпретировал JS на моем форуме и запускал много кодов ответов на 500 и 403, которые, как я полагал, влияли на позицию сайта. Я работал над этим, исключив проблемные URL-адреса с помощью robots.txt.

В один прекрасный день я перепутал и сделал что-то, что помешало Google отсканировать некоторые страницы на этом сайте, которые я действительно хотел проиндексировать. Из-за исключений форума в разделе ошибок «Инструменты для веб-мастеров» для «Ограничено robots.txt» было более 4000 страниц, поэтому я бы не выбрал эту ошибку до тех пор, пока не было слишком поздно.

К счастью, поскольку все «важные» страницы на моем сайте находятся в файлах Sitemap, я смог быстро обнаружить эту проблему в специальной категории ошибок, которую имеют инструменты для веб-мастеров для проблем со страницами в файлах Sitemap.

Как и в стороне, я также получаю большую пользу от использования индекса Sitemap для определения качества индексирования различных разделов моих сайтов, как указано by @AJ Kohn.

ответил JasonBirch 2 22010vEurope/Moscow11bEurope/MoscowTue, 02 Nov 2010 20:20:35 +0300 2010, 20:20:35
4

Я не сталкивался с этим сам, но большинство моих проектов - это приложения или сайты, которые в противном случае требуют учетных записей пользователей, поэтому индексирование поисковыми системами не является фокусом.

Тем не менее, я уже слышал, что SEO в основном делал sitemaps бесполезным. Если вы посмотрите на протокол, это своего рода «система чести», чтобы рассказать, как часто меняется страница и каков относительный приоритет каждой страницы. Разумеется, десятки SEO-компаний злоупотребляют полями - каждая страница является главным приоритетом! каждую страницу меняется ежечасно! - и сделанные файлы Sitemap эффективно бесполезны.

Эта статья из 2008 в основном говорит и, похоже, приходит к тому же выводу, что вы делаете: карта сайта довольно бесполезна, и вам лучше оптимизировать контент, который нужно проиндексировать, и отбрасывать карту сайта.

ответил Travis Illig 2 22010vEurope/Moscow11bEurope/MoscowTue, 02 Nov 2010 02:54:38 +0300 2010, 02:54:38
3

Разрешить сканирование.

Я делаю следующее:

  1. сделать сайт сканируемым по-старому.
  2. убедитесь, что у меня есть файл robots.txt с указанием карты сайта.
  3. создайте XML-карту сайта, но не отправляйте ее. Пусть искатель обнаруживает и использует его по мере необходимости, как часть процесса обнаружения и индексирования.

Я создаю расширенный XML-файл, который служит основой для многих вещей:

  • Создание HTML-карты сайта
  • Справка на странице 404 (не найден)
  • Помогите с другими крошечными задачами, такими как создание панировочных сухарей или получение некоторых метаданных на моем шаблоне Facade для страницы.

Следовательно, у меня есть все это, почему бы не служить также картой xml и позволить искателю делать то, что она хотела бы сделать, если бы она хотела это сделать?

ответил Dave 2 22010vEurope/Moscow11bEurope/MoscowTue, 02 Nov 2010 07:25:53 +0300 2010, 07:25:53
3

Джефф, я понятия не имею о Stackoverflow, потому что у меня никогда не было возможности в моей жизни быть веб-мастером такого огромного и так часто обновляемого веб-сайта.

Для небольших веб-сайтов, которые не часто меняются, я думаю, что карта сайта весьма полезна (не сказать, что карта сайта является самой важной вещью, но весьма полезной да) по двум причинам:

  1. Сайт быстро сканируется (та же причина объясняется Ответ Joshak выше ) и в моем небольшом опыте я заметил это много раз с небольшими сайтами (до 30/50 страниц)

  2. Через несколько недель я отправил файл Sitemap, я заглянул в «Инструменты Google для веб-мастеров - Sitemaps», и я могу видеть количество URL-адресов, представленных в sitemap VS, количество URL-адресов в веб-индексе , Если я вижу, что они то же самое, то хорошо. В противном случае я могу сразу проверить на своих сайтах, какие страницы не индексируются и почему.

ответил Marco Demaio 2 22010vEurope/Moscow11bEurope/MoscowTue, 02 Nov 2010 15:35:05 +0300 2010, 15:35:05
3

Это было (сначала?) написано Randfish в SEOmoz вернулся в добрый старый 2007 год. В первый раз он пришел к тем же выводам, но потом время все-таки ... и прошло.

С тех пор (с января 2009 года) добавлен постскриптум статьи, в котором говорится, что любые возможные недостатки просто перевешиваются общими положительными результатами генерации, проверки и отправки файлов Sitemap.

  

Обновление 5 января 2009 г. - Я действительно сильно изменил свое мнение   об этом совете. Да, файлы Sitemap по-прежнему могут   но, учитывая опыт, накопленный за последние 1,5 года, я   теперь рекомендую всем нашим клиентам (и почти всем остальным, кто   спрашивает), чтобы файлы Sitemap были представлены. Положительные с точки зрения ползания,   индексация и трафик просто перевешивают недостатки.

ответил Mike Hawkins 3 32010vEurope/Moscow11bEurope/MoscowWed, 03 Nov 2010 00:34:41 +0300 2010, 00:34:41
2

Я считаю, что SiteMaps в наши дни служат только двум целям:

  • Они позволяют уменьшить частоту пауков, чтобы уменьшить нагрузку на сервер. Это не должно быть проблемой для большинства сайтов.
  • Они могут помочь повторно использовать то, что поисковая система уже знает о вас. Листинг имен страниц и, очевидно, добавление соответствующего веса на каждую страницу, помогает поисковой системе проверить свои собственные показатели для ранжирования вашей архитектуры сайта.
ответил 2 22010vEurope/Moscow11bEurope/MoscowTue, 02 Nov 2010 03:35:11 +0300 2010, 03:35:11
1

НЕ ИСПОЛЬЗУЙТЕ SITEMAPS

Файлы Sitemap используются, главным образом, для сайтов, которые не индексируют индексы и узлы .... SE делает это как для основного контента, поэтому наличие карты сайта замедляет работу гусеничного механизма ... Да, это верно, это замедлит работу, потому что в файле Sitemap отсутствуют метаданные, которые имеют базовые индексы. На противоположной стороне, я понятия не имею, как Google строит свои боты, просто знаю, буду ли я бот SE, я бы не использовал карту сайта. Кроме того, некоторые сайты даже не замечают, что их sitemaps все%! @ $ - и если вы создали профиль на карте сайта, которая внезапно не работает, и вам нужно создать новый профиль с реальный сайт.

Итак, вы правы - НЕ ИСПОЛЬЗУЙТЕ SITEMAPS!

СОВЕТ. . Одна вещь, которую вы должны сделать, это сохранить семантику тегов одинаково в течение времени, насколько это возможно, что означает, что если «Asked One Hour Ago» имеет встроенные метаданные:

title="2010-11-02 00:07:15Z" class="relativetime"

никогда не изменяйте имя строки relativetime, если значение данных в title не изменилось. НИКОГДА ...: -)

ответил blunders 2 22010vEurope/Moscow11bEurope/MoscowTue, 02 Nov 2010 03:59:38 +0300 2010, 03:59:38
1

Недавно я реструктурировал сайт, над которым я все еще работаю. Поскольку у меня не было хорошего способа связать 500 000 страниц, чтобы помочь пользователям, я решил использовать XML-карту сайта и отправить ее в Google и вместо этого использовать поиск по сайту. У Google не было проблем с индексированием моего сайта раньше, однако, с момента добавления файла Sitemap, Google очень агрессивен в том, что он разводит мой сайт и очень быстро индексирует страницы. Google использовал карту сайта для поиска новых страниц (около 3300 в неделю) и пересмотра обновленных страниц. Это была настоящая победа в моей книге. Я все еще хочу найти новый способ связать свои страницы и использовать AJAX для поиска, но это проект на другой день. Все идет нормально! Это было хорошее решение для меня. Все и все, я получил и не потерял. Что интересно, так как я всегда чувствовал, что карты Sitemaps могут быть более полезными, но ограничены его дизайном.

ответил closetnoc 17 FebruaryEurope/MoscowbMon, 17 Feb 2014 08:52:41 +0400000000amMon, 17 Feb 2014 08:52:41 +040014 2014, 08:52:41
0

Я слышал, что sitemaps быстрее помещают ваши страницы в дополнительный индекс. Но я даже не слышал дополнительный указатель, упомянутый в возрасте, поэтому они больше не смогут его использовать.

P.S. в случае, если мое заявление недостаточно ясно, находясь в дополнительном индексе, является (или было) ПЛОХОЙ вещью ... поэтому карта сайта (или была) BAD.

ответил joedevon 2 22010vEurope/Moscow11bEurope/MoscowTue, 02 Nov 2010 13:11:15 +0300 2010, 13:11:15
0

Мы используем sitemaps (не отправленные поисковым системам, но привязанные к robots.txt) в основном для того, чтобы убедиться, что главная страница имеет самый высокий <priority>. Я не уверен, есть ли у них много другого использования.

ответил TRiG 2 22010vEurope/Moscow11bEurope/MoscowTue, 02 Nov 2010 15:43:48 +0300 2010, 15:43:48
0

Я не согласен с тем, что Google не будет индексировать ссылки, связанные только с сайтом. У меня есть множество сайтов, которые имеют страницы, доступные только через sitemaps, а google индексирует их без проблем. Я могу привести много примеров этого.

ответил 2 22010vEurope/Moscow11bEurope/MoscowTue, 02 Nov 2010 22:25:31 +0300 2010, 22:25:31
0

Хорошо построенный сайт не нуждается в карте сайта, хотя он может помочь в нашем охвате и ранжировании и добавляет немного дополнительной ценности, такой как приоритет, частота обновления и т. д. Вы можете сказать поисковой системе эй ... Я обновил эту страницу где-то посередине моего сайта, не требуя полного сканирования. Я никогда не рассматривал шаблоны сканирования, но надеюсь, что это поможет.

Сказав, что реальный плюс для меня - это инструменты для веб-мастеров и понимание, которое оно дает вам в видимости вашего сайта и ваших пользователей.

ответил 3 32010vEurope/Moscow11bEurope/MoscowWed, 03 Nov 2010 03:18:09 +0300 2010, 03:18:09

Похожие вопросы

Популярные теги

security × 330linux × 316macos × 2827 × 268performance × 244command-line × 241sql-server × 235joomla-3.x × 222java × 189c++ × 186windows × 180cisco × 168bash × 158c# × 142gmail × 139arduino-uno × 139javascript × 134ssh × 133seo × 132mysql × 132