Выполняют ли поисковые системы сканирование PDF-файлов, и если есть какие-либо правила, которые следует соблюдать при их создании

Веб-сайт, на котором я работаю, содержит несколько сотен PDF-файлов. Я не думаю, что когда-либо видел, что кто-то из них вернулся в поиск, но они связаны напрямую с сайтом. Они также полны ключевых слов, потому что они являются документами продуктов.

Есть ли что-то особенное, что нам нужно сделать, чтобы заставить Google или другие поисковые системы обходить их?

Есть ли какие-то жесткие и быстрые правила для того, чтобы сделать PDF-файлы более удобными для Google? Например, должен ли я запускать их через ghostscript для очистки сломанных тегов PDF, которые Adobe создает во время генерации?

22 голоса | спросил Ben Hoffman 22 J000000Thursday10 2010, 01:51:42

3 ответа


17

Google определенно индексирует файлы PDF , и вы можете искать только файлы PDF, добавив filetype:pdf в ваш поисковый запрос ( пример ).

Я бы сказал, что главное, что нужно сделать, чтобы оптимизировать PDF, чтобы его легко проиндексировать было:

  • Дайте ему полноценное имя файла
  • Завершите все свойства метаданных документа (название, автор, ключевые слова и т. д.)
  • Убедитесь, что ваш PDF-файл состоит из фактического текста и не отсканированных изображений.
  • Убедитесь, что у вас есть хороший контент с правильным использованием заголовков, так же, как и HTML-документ.

Дополнительные советы читайте Оптимизация документов PDF и Одиннадцать советов по оптимизации PDF-файлов для поисковых систем

ответил Dan Diplo 22 J000000Thursday10 2010, 02:45:34
1

Я не уверен в других поисковых системах, но в отношении Google основное правило заключается в том, чтобы не исключать их через robots.txt

Это было их первоначальным объявлением о поддержке PDF поиск.

ответил intlect 22 J000000Thursday10 2010, 02:25:29
1

Точно так же, как сделать сайт совместимым не может повредить ваш SEO, делая ваш PDF доступный не может повредить. Встроенная функция проверки доступности Adobe далека от совершенства, но, по крайней мере, исправление этих областей позволит вам начать работу.

Я, вероятно, трачу 5 минут на каждые 4 или 5, в основном текстовые PDF-файлы, которые мы размещаем в Интернете. Время увеличивается равномерно в зависимости от количества страниц и насколько сложны эти страницы.

Предполагая, что у вас есть Adobe Acrobat Pro для редактирования:

  • Запустите полную проверку доступности. (Быстрая проверка для меня довольно бессмысленна).
  • Обновление метаинформации в свойствах документа (ключевые слова, тема, язык и т. д.)
  • Убедитесь, что теги добавлены
  • Убедитесь, что текст помечен как текст, изображения как изображения, фон в качестве фона
  • Тег бесполезный пух (например, украшение или дизайн) в качестве фона
  • Добавьте хороший текст к изображениям
  • Убедитесь, что в порядке чтения текст упорядочен правильно
  • На панели инструментов содержимого убедитесь, что текст не дублируется или грубо неверно изменен.
  • Используйте сканер OCR на отсканированных страницах

Для более продвинутого редактирования, такого как таблицы и действительно необычных ошибок Adobe, мы используем плагин под названием CommonLook. CommonLook выполняет эту работу, но я ненавижу ее почти так же, как я ненавижу инструменты Adobe.

Ознакомьтесь с инструментом «Настройка чтения Touch Up», панель инструментов «Теги», панель «Порядок чтения» и панель инструментов «Содержимое». Моя работа требует полностью совместимых документов перед выходом в Интернет, но любой может воспользоваться некоторыми простыми свойствами тегов и документов.

ответил MrChrister 23 J000000Friday10 2010, 22:30:26

Похожие вопросы

Популярные теги

security × 330linux × 316macos × 2827 × 268performance × 244command-line × 241sql-server × 235joomla-3.x × 222java × 189c++ × 186windows × 180cisco × 168bash × 158c# × 142gmail × 139arduino-uno × 139javascript × 134ssh × 133seo × 132mysql × 132