Google все еще сканирует и индексирует мои старые, фиктивные, тестовые страницы, которые сейчас 404 не найдены

Я установил свой сайт с образцовыми страницами и данными (lorem ipsum и т. д.), и Google просканировал эти страницы. Я удалил все эти страницы и фактически добавил реальный контент, но в инструментах для веб-мастеров, я все еще получаю много 404 ошибок, которые Google пытается обходить эти страницы. Я установил их как «отмеченные как разрешенные», но некоторые страницы все еще возвращаются как 404.

Кроме того, у меня есть много этих примеров страниц, которые все еще перечислены, когда я выполняю поиск своего сайта в Google. Как их удалить. Я думаю, что эти нерелевантные страницы вредят моему рейтингу.

Я действительно хотел стереть все эти страницы и начать индексировать мой сайт как новый, но я читал, что это невозможно. (Я отправил файл Sitemap и использовал «Fetch as Google».)

19 голосов | спросил Ace 3 J0000006Europe/Moscow 2014, 20:50:32

3 ответа


17

Хорошо. Прежде всего. Не указывайте свой 404 как исправленный . Вы фактически продлеваете проблему. Google попытается извлечь страницу, которая возвращает 404 несколько раз, прежде чем сдаться. Это связано с тем, что ошибка 404 указывает на временную ситуацию, когда ошибка 410 говорит, что страница go . Поэтому каждый раз, когда вы отмечаете 404 как fixed , вы на самом деле говорите Google, чтобы попробовать снова, тем самым снова начав процесс устранения.

Просто позвольте этим страницам 404 некоторое время, и Google перестанет их искать и выкинет страницы из индекса. Это займет много времени, но, за исключением ошибки 410, это самый простой способ. Ошибка 410 сделает процесс более быстрым, но сложнее представить ошибку 410, а 404 по умолчанию делает это более простым и естественным решением.

Ваши удаленные страницы исчезнут примерно через 30-60 дней, если вы сможете подождать. Это зависит от того, как часто Google посещает ваши страницы. Это может занять больше времени, но как только 404 обнаружены, Google любит сначала проверять сайт, а затем, в зависимости от количества 404-х, может более агрессивно атаковать ваш сайт.

Использование файла Sitemap фактически вообще не устраняет никаких проблем с индексом. Это упрощает жизнь для поисковых систем. Он никогда не воспринимается как полный список всех страниц на любом сайте. Если поисковая система считывает карту сайта и все еще находит страницы, не указанные в карте сайта, она будет продолжать индексировать эти страницы.

Один из вариантов, если имеет смысл сделать это, - это перечислить эти страницы в файле robots.txt. Если их не так много (что-то можно сделать, а файл robots.txt не будет слишком длинным), это было бы более быстрым решением. В противном случае я просто подожду, и пусть ошибки 404 истекут сами.

Одно последнее слово. Вы будете в порядке. В самом деле. Все будет хорошо для вас, если вы будете терпеливы.

ответил closetnoc 3 J0000006Europe/Moscow 2014, 21:44:29
6

После публикации страницы Google никогда не забудет об этом. У меня есть сайты, с которых я удалил страницы 15 лет назад. Googlebot все еще возвращается и периодически проверяет эти страницы.

Чтобы страницы не отображались в поисковой системе, ваши 404 ошибки будут выполнять эту работу. Это может занять Google в день, чтобы удалить страницу из индекса после того, как Googlebot сканирует ее дальше. Если вы хотите, чтобы он был удален быстрее, верните статус «410 Gone». Google удаляет 410 страниц сразу после сканирования, вместо того, чтобы ждать дня. Google не удаляет сразу 404 страницы, чтобы веб-мастера не стреляли в ногу как , описанный Мэттом Каттом :

  

Итак, с 404s, я думаю, что 401 и, возможно, 403s, если мы увидим страницу, и получим 404, мы будем защищать эту страницу в течение 24 часов в обходной системе, поэтому мы вроде подождем, и мы говорим, может быть, это было переходным 404, возможно, это действительно не предназначалось для того, чтобы страница не была найдена.

Другим методом, который вы могли бы рассмотреть, является перенаправление. 301 перенаправление старой страницы на замену предотвратит ее появление в качестве ошибки в Инструментах для веб-мастеров Google. Это возможно только в том случае, если есть новая страница для каждой из старых страниц. Перенаправление всех тестовых страниц на домашнюю страницу не поможет, поскольку Google считает, что перенаправления на домашнюю страницу являются «мягкими 404» ошибками, которые будут отображаться в этом отчете.

Наличие 404 ошибок в Инструментах для веб-мастеров не повредит вам. Возможно, вам даже помогут некоторые 404 ошибки на вашем сайте, поскольку он показывает Googlebot, что ваш сайт настроен правильно. Вот что Google Джон Мюллер (который работает в Инструментах для веб-мастеров и файлах Sitemap) должен сказать около 404 ошибок, которые появляются в инструментах для веб-мастеров :

  

HELP! МОЙ САЙТ ОШИБКИ 939 CRAWL !! 1

     

Я рассматриваю этот вопрос несколько раз в неделю; вы не одиноки - многие веб-сайты имеют ошибки сканирования.

     
  1. 404 ошибки на недопустимых URL-адресах не наносят вреда индексированию или ранжированию вашего сайта . Это не имеет значения, если их 100 или 10 миллионов, они не навредит вашему сайту. http://googlewebmastercentral.blogspot.ch/2011/05/do-404s- hurt-my-site.html
  2.   
  3. В некоторых случаях ошибки сканирования могут возникать из-за законной структурной проблемы на вашем веб-сайте или в CMS. Как вы говорите? Дважды проверьте происхождение ошибки обхода. Если на вашем сайте есть неработающая ссылка, в статическом HTML-странице вашей страницы, это всегда стоит исправлять. (спасибо + Martino Mosna )
  4.   
  5. Как насчет фанковых URL-адресов, которые «четко нарушены?». Когда наши алгоритмы, такие как ваш сайт, они могут попытаться найти на нем более хороший контент, например, пытаясь обнаружить новые URL-адреса в JavaScript. Если мы попробуем эти «АВТО» и найдем 404, это будет здорово и ожидаемо. Мы просто не хотим пропустить что-либо важное (вставьте здесь слишком загруженный мейм Googlebot). http://support.google.com/webmasters/bin/answer.py?answer=1154698
  6.   
  7. Вам не нужно исправлять ошибки обхода в Инструментах для веб-мастеров. Функция «Маркер как фиксированная» предназначена только для того, чтобы помочь вам, если вы хотите отслеживать свой прогресс там; это ничего не меняет в нашем веб-поисковом конвейере, поэтому не стесняйтесь игнорировать его, если вам это не нужно.    http://support.google.com/webmasters/bin/answer.py?answer=2467403
  8.   
  9. Перечислим ошибки обхода в Инструментах для веб-мастеров по приоритету, которые основаны на нескольких факторах. Если первая страница ошибок обхода явно неактуальна, вы, вероятно, не найдете важных ошибок обхода для дальнейшегостраницы.    http://googlewebmastercentral.blogspot.ch/2012/03/crawl-errors-next- generation.html
  10.   
  11. На вашем веб-сайте нет необходимости исправлять ошибки сканирования. Поиск 404 является нормальным и ожидаемым от здорового, хорошо настроенного веб-сайта. Если у вас есть эквивалентный новый URL-адрес, перенаправление на него является хорошей практикой. В противном случае вы не должны создавать поддельный контент, вы не должны перенаправлять на свою домашнюю страницу, вы не должны запрещать использование этих URL-адресов robots.txt. Все это затрудняет нам распознавание структуры вашего сайта и его обработку должным образом. Мы называем эти «404» ошибки.    http://support.google.com/webmasters/bin/answer.py?answer=181708
  12.   
  13. Очевидно, что если эти ошибки обхода появятся для URL-адресов, которые вам интересны, возможно, URL-адресов в файле Sitemap, то это то, что вы должны немедленно предпринять. Если Googlebot не сможет сканировать ваши важные URL-адреса, они могут быть удалены из наших результатов поиска, и пользователи также не смогут получить к ним доступ.
  14.   
ответил Stephen Ostermiller 3 J0000006Europe/Moscow 2014, 21:43:42
4

Google, скорее всего, продолжит попытки просканировать эти страницы в течение длительного времени. Веб-мастера делают ошибки, или сайты становятся недоступными по какой-либо причине, поэтому Google не будет удалять контент при первом знаке 404.

В качестве альтернативы вы можете использовать 410 Gone вместо этого. Это гораздо более сильный (т. Е. Преднамеренный) сигнал о том, что страница буквально «ушла» и не возвращается. Это может побудить Google быстрее удалить страницу из SERP.

  

Я установил их как «пометить как разрешенные», но некоторые страницы по-прежнему возвращаются как 404.

Они только «разрешены», если вы вернули страницу. Если вы помечаете его как разрешенную, а страница не существует, ошибка обхода будет просто повторяться. Если страница не существует, просто оставьте ее как есть.

Подлинная 404 не наносит ущерба вашему поисковому рангу. Отчет 404 в GWT предназначен в первую очередь для вашей выгоды, чтобы вы могли видеть, когда все идет не так ... когда страницы не могут быть найдены, которые должны быть найдены!

Эти нерелевантные страницы в результатах поиска, возможно, являются незначительным досадой для ваших пользователей, однако, что они ищут, чтобы найти ваш lorem ipsum ?

ответил MrWhite 3 J0000006Europe/Moscow 2014, 21:43:32

Похожие вопросы

Популярные теги

security × 330linux × 316macos × 2827 × 268performance × 244command-line × 241sql-server × 235joomla-3.x × 222java × 189c++ × 186windows × 180cisco × 168bash × 158c# × 142gmail × 139arduino-uno × 139javascript × 134ssh × 133seo × 132mysql × 132