Почему Google перестала индексировать страницы из нашего файла sitemap.xml?

Мы видим некоторые страницы, которые существуют в нашем sitemap.xml, но необъяснимо отсутствуют в общедоступном индексе Google.

Вы не можете скачать https://superuser.com/sitemap.xml - мы защищаем этот файл, потому что есть были проблемы с ним в прошлом, но googlebot может. Мы проверили с помощью Инструментов Google для веб-мастеров, что файл sitemap.xml был снят сегодня и оценивается ОК без ошибок (зеленая галочка).

alt text

sitemap.xml содержит список последних 50 000 вопросов на нашем сайте, которые были заданы. Например, этот вопрос ...

https: //суперпользователь .com /вопросы /201610 /, как-к-см-в-конец-в-а-долгосрочной приемо-символических-ссылок

... существует в sitemap.xml как ...

<url>
<loc>https://superuser.com/questions/201610/how-to-see-the-end-of-a-long-chain-of-symbolic-links</loc>
<lastmod>2010-10-20</lastmod>
<changefreq>daily</changefreq>
<priority>0.2</priority>
</url>

Поиск « Как увидеть конец длинной цепочки символических ссылок » дает только один результат questionhub.com, который очищает наши данные (совершенно разные проблема).

Вы можете увеличить число счетчиков вопросов и выполнить точный поиск названия вопроса, и вы увидите, что этот шаблон сохраняется.

Эти URL-адреса в sitemap.xml, но они не отображаются в индексе Google - и все же они отображаются на сайтах, которые очищают наши данные объявлений. Почему это было бы?

18 голосов | спросил Michael Pryor 21 +04002010-10-21T23:18:36+04:00312010bEurope/MoscowThu, 21 Oct 2010 23:18:36 +0400 2010, 23:18:36

6 ответов


10

Похоже, на этой неделе у Google были некоторые проблемы с программным обходом, которые звучат замечательно , как то, что мы переживали:

http://searchengineland.com/is-google-broken -sites-большой-маленький -проводы индексирование-проблемы-53701

  

Никто, кажется, не застрахован от проблемы индексирования Google, в которой многие владельцы сайтов сбиты с толку. Блоги и веб-сайты, большие и малые, не индексируются так быстро, как обычно, - если они вообще индексируются.

     

...

     

Джон от Google ответил на нить на форумах для веб-мастеров:

     
    

Чтобы быть ясным, проблемы из этого потока, которые я подробно рассмотрел, не связаны с изменениями в наших политиках или изменениями в наших алгоритмах; они связаны с технической проблемой на нашей стороне, которая будет явно решена как можно скорее (это может занять до нескольких дней, чтобы быть видимым для всех сайтов)

  
ответил Jeff Atwood 24 +04002010-10-24T07:16:26+04:00312010bEurope/MoscowSun, 24 Oct 2010 07:16:26 +0400 2010, 07:16:26
7

Google не делает никаких предложений и не гарантирует, что страницы в файле Sitemap будут проиндексированы.

Мой опыт заключался в том, что страница должна быть связана с (со страницы с некоторыми полномочиями), чтобы появиться. Связана ли эта страница /вопрос напрямую /косвенно со страницы с некоторыми полномочиями?

например. если на главной странице superuser.com (которая, по-видимому, много ссылок) напрямую связана с этим вопросом или связана с ней косвенно через несколько других страниц, вы можете ожидать, что она будет проиндексирована.

Из google:

  

Google не гарантирует, что мы   сканировать или индексировать все ваши URL-адреса.   Однако мы используем данные в вашем   Карта сайта, чтобы узнать о вашем сайте   структуры, которая позволит нам   улучшить расписание сканирования и выполнить   Лучшая работа, сканирующая ваш сайт в   будущее. В большинстве случаев веб-мастера будут   пользу от подачи Sitemap, и   ни в коем случае вы не будете наказаны за   он.

http://www.google. ком /поддержка /вебмастерам /bin /answer.py гектолитров = еп & амп;? ответ = 156184

ответил Alex Black 21 +04002010-10-21T23:35:05+04:00312010bEurope/MoscowThu, 21 Oct 2010 23:35:05 +0400 2010, 23:35:05
3

Я думаю, что Google вряд ли будет индексировать ваши веб-страницы, 50.000 - это много. Поэтому мое предложение будет разбивать вашу карту сайта на куски, как будто

<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
   <sitemap>
      <loc>http://www.example.com/sitemap1.xml.gz</loc>
      <lastmod>2004-10-01T18:23:17+00:00</lastmod>
   </sitemap>
   <sitemap>
      <loc>http://www.example.com/sitemap2.xml.gz</loc>
      <lastmod>2005-01-01</lastmod>
   </sitemap>
</sitemapindex>

Если вы разбились, вам повезет, что индексы будут проиндексированы в 50 000 URL.

Объяснение проблемы Sitemaps.org

  

Вы можете предоставить несколько файлов Sitemap, но каждый файл Sitemap, который вы предоставляете, должен иметь не более 50 000 URL-адресов и должен быть не более 10 МБ (10 485 760 байт). Если вы хотите, вы можете сжать файлы Sitemap с помощью gzip, чтобы снизить требования к пропускной способности; однако файл Sitemap-файла, который был несжатым, не должен превышать 10 МБ. Если вы хотите перечислить более 50 000 URL-адресов, вы должны создать несколько файлов Sitemap.

     

Если вы предоставили несколько файлов Sitemap, вы должны перечислить каждый файл Sitemap в файле индекса Sitemap. Файлы индекса Sitemap могут содержать не более 50 000 файлов Sitemap и не должны превышать 10 МБ (10 485 760 байт) и могут быть сжаты. У вас может быть более одного файла индекса Sitemap. XML-формат файла индекса Sitemap очень похож на формат XML файла Sitemap.

http://sitemaps.org/protocol.php

ответил Sevki 21 +04002010-10-21T23:52:21+04:00312010bEurope/MoscowThu, 21 Oct 2010 23:52:21 +0400 2010, 23:52:21
2

Похоже, Google заявляет, что в индекс указали 46 514 отправленных ссылок . Может быть, это проблема (я ненавижу это говорить), но рейтинг страницы? Скребковые сайты могут лучше выполнять перекрестное сшивание и т. Д. И оцениваться выше. Просто мысль.

Этот поиск site: superuser.com Как увидеть конец длинная цепочка символических ссылок также, кажется, правильно отображает ваш sitemap.xml, хотя и не возвращает ожидаемые результаты.

ответил Dustin Senos 21 +04002010-10-21T23:37:13+04:00312010bEurope/MoscowThu, 21 Oct 2010 23:37:13 +0400 2010, 23:37:13
2

С этим типом вещей есть много потенциальных ответов.

Я бы начал спрашивать, сколько страниц у вас на самом деле. (вы указали 50 000 URL-адресов на быстрый сайт: superuser.com показывает 125 000 индексированных, вы считаете, что у вас есть только 50K-URL-адреса, и они отправляют все из них, но Google набирает 2-3 копии каждой страницы, или, может быть, у вас есть URL-адреса 1Mil и всего 12,5 % индексируются) получение большой картины помогает направлять туда, где искать проблемы.

Если с первого шага ничего не получается, я бы перешел на контент, похоже, что у QH есть намного больше контента на своей странице и ссылка на многие другие «ресурсы», несмотря на то, что все их содержимое соскабливается Google считает свою страницу более полезной, поскольку они предоставляют пользователю больше ресурсов /информации. Если они считаются авторитетом, и весь ваш контент такой же, как и у них, возможно, Google не будет индексировать ваш, даже если вы оригинал.

Если вы уверены, что это не проблема, создайте некоторые высококачественные ссылки на него, размещайте этот вопрос в некоторых популярных блогах сотрудников или задавайте друзьям об этом блоге, возможно, если у вас есть друзья SEO, которые запускают популярные блоги, d напишите тематическое исследование об этом и т. д.

Если у вас появилось много сильных ссылок, и он по-прежнему не индексируется по причинам, это может быть оштрафовано (в большинстве случаев это не проблема, но никогда не мешает проверить).

Если ничего из этого не работает, то 9 раз из 10 это простая техническая проблема, которая была упущена (исключение роботов или что-то подобное).

Если у вас все еще нет ответа после прохождения этого запроса, попросите Google и надейтесь, что они дадут вам ответ.

ответил Joshak 22 +04002010-10-22T16:24:43+04:00312010bEurope/MoscowFri, 22 Oct 2010 16:24:43 +0400 2010, 16:24:43
0

Вопрос только что был задан вчера - дайте googlebot шанс, вы не единственный сайт в Интернете, который ему нужно просканировать, я знаю:)

Если вопросы, как правило, индексируются в течение дня или около того, и проходит неделя, и что все еще не проиндексированы, тогда я могу быть обеспокоен. Но, конечно, не через 1 день.

ответил Eric Petroelje 22 +04002010-10-22T00:33:29+04:00312010bEurope/MoscowFri, 22 Oct 2010 00:33:29 +0400 2010, 00:33:29

Похожие вопросы

Популярные теги

security × 330linux × 316macos × 2827 × 268performance × 244command-line × 241sql-server × 235joomla-3.x × 222java × 189c++ × 186windows × 180cisco × 168bash × 158c# × 142gmail × 139arduino-uno × 139javascript × 134ssh × 133seo × 132mysql × 132