Что такое дублированный контент и как я могу избежать наказания за него на моем сайте?

Это общий вопрос сообщества по вики, касающийся дублированного содержимого.

Если ваш вопрос был закрыт как дубликат этого вопроса, и вы чувствуете, что предоставленная здесь информация не дает достаточного ответа, пожалуйста, откройте обсуждение Pro Webmasters Meta .


  1. Что Google считает дублированным?
  2. Будет ли способ представления моего контента привести к дублированию контента?
  3. Как я могу избежать того, чтобы контент моего сайта рассматривался как дублированный контент?
32 голоса | спросил 4 revs, 3 users 60%
danlefree
1 Jam1000000amThu, 01 Jan 1970 03:00:00 +030070 1970, 03:00:00

1 ответ


27

руководство для веб-мастеров Duplicate Content определяет дублирующийся контент (для целей оптимизации поисковой системы) как «существенные блоки контента внутри или между доменами, которые полностью соответствуют другому контенту или в значительной степени похожи».

В руководстве Google далее перечислены следующие примеры дублированного контента:

  
  • Дискуссионные форумы, которые могут создавать как обычные, так и усеченные страницы, предназначенные для мобильных устройств.
  •   
  • Сохранять элементы, отображаемые или связанные через несколько разных URL-адресов.
  •   
  • Версия веб-страниц только для печати
  •   

Штрафы

Поисковые системы должны наказывать некоторые экземпляры дублированного контента, которые предназначены для спама индекса поиска, например:

  • скребковые сайты , которые копируют контент оптом
  • упрощенное поиск статей , которые генерируют «новый» контент путем выборочной замены слов в существующий контент.

Если поисковые системы обнаруживают дублирующее содержимое, они могут:

  • Наметьте весь сайт, содержащий дублированный контент.
  • Выберите страницу как канонический источник содержимого и опустите приоритет или не проиндексируйте другую страницу с помощью дублирования.
  • Не предпринимайте никаких штрафных действий и индексируйте несколько копий содержимого

Предотвращение внутреннего дублирования

Когда вас спросят о дублированном контенте, Мэтт Каттс из Google сказал, что это должно только повредить вам, если он выглядит спам , однако многие веб-мастера используют следующие методы, чтобы избежать ненужного дублирования контента:

  • Убедитесь, что контент доступен только в каноническом URL
  • Если ваш сайт должен возвращать один и тот же контент под несколькими URL-адресами (например, для страницы «Просмотр») указать канонический URL вручную с элементом ссылки в заголовке документа
  • В случаях, когда ваш сайт возвращает аналогичный контент на основе параметров, закодированных в URL-адресе (например, сортировка каталога товаров) исключить параметры URL в Инструментах Google для веб-мастеров

Синдицирование контента

Публикация контента на вашем сайте, который был опубликован в других местах, называется синдикацией контента. Создание дублированного контента через синдикацию контента может быть ОК:

  • Пока у вас есть разрешение на это
  • Расскажите своим пользователям, что такое контент и откуда он пришел.
  • Вы ссылаетесь на исходный источник (прямая глубокая ссылка на исходный контент со страницы с копией, а не просто ссылка на домашнюю страницу сайта, на котором можно найти оригинал)
  • Ваши пользователи считают это полезным.
  • У вас есть что добавить к этому контенту, чтобы пользователи скорее нашли этот контент на вашем сайте, чем где-либо еще. (Например, комментарий или критика.)
  • У вас также достаточно оригинального контента на вашем сайте (не менее 50% оригинала, но в идеале 80% оригинала).

В то время как Google не наказывает за каждый экземпляр дублированного контента, даже не подлежащий наказанию дублированный контент может не помочь вам получить посетителей:

  • Вы конкурируете со всеми остальными копиями, которые находятся там
  • Google, скорее всего, предпочтет оригинальный источник контента и самую авторитетную копию контента.

Google будет наказывать дублированный контент, опубликованный на вашем веб-сайте из других источников, если:

  • Кажется, что он очищен или украден (особенно без атрибуции).
  • Пользователи не очень хорошо реагируют на это (особенно после нажатия на Google после посещения вашего сайта).
  • Там так много копий, что нет причин отправлять пользователей на свою копию.
  • Ваша копия не является оригинальной, наиболее авторитетной или наиболее пригодной для использования; и не имеет комментариев или критики.
  • На вашем сайте недостаточно оригинального контента, чтобы сбалансировать все повторно опубликованные материалы.
  • Вы дублируете страницы так часто на своем собственном сайте, что робот Googlebot не может выполнить сканирование полного сайта.

Интернационализация и геотаргетинг

Локализация контента - это одна из областей, в которой дублирование контента может быть полезным для SEO. Прекрасно публиковать одно и то же содержимое на сайтах, ориентированных на разные страны, говорящие на одном языке. Например, у вас может быть сайт в США, сайт в Великобритании и австралийский сайт с одинаковым контентом.

С сайтом для каждой страны, этокак правило, можно лучше оценивать пользователей в этой стране. Кроме того, в каждой стране можно конкретно обслуживать пользователей с незначительными различиями в правописании, ценообразованием в валюте страны или вариантами доставки товаров. Для получения дополнительной информации о настройке геотаргетированных веб-сайтов см. Как мне структурировать URL-адреса для SEO и локализации?

Работа со скреперами контента

Другие сайты, которые украдут ваш контент и переиздают его без разрешения, могут иногда вызывать повторяющиеся проблемы с содержимым вашего сайта. Поисковые системы работают над тем, чтобы это трудно скребок сайты извлечь выгоду от дублирования вашего содержание . Если сайт скребка создает проблемы для вас, возможно, удастся удалить сайт из индекса Google с помощью подает запрос DMCA с Google

ответил simon 16 J000000Tuesday13 2013, 21:49:01

Похожие вопросы

Популярные теги

security × 330linux × 316macos × 2827 × 268performance × 244command-line × 241sql-server × 235joomla-3.x × 222java × 189c++ × 186windows × 180cisco × 168bash × 158c# × 142gmail × 139arduino-uno × 139javascript × 134ssh × 133seo × 132mysql × 132