Как извлечь текст из изображений?

Как извлечь текст из изображений?

Я не говорю о отсканированных файлах, а о садовых изображениях, например, когда вы снимаете высокоуровневую фотографию классной доски в классе, и это красиво написано; или когда вы фотографируете страницу из книги рецептов и хотите, чтобы рецепт был в текстовом формате.

Любое бесплатное и открытое программное обеспечение для этого?

Я попробовал tesseract, и результаты были ужасными.

22 голоса | спросил Strapakowsky 31 PM000000120000004131 2011, 12:33:41

2 ответа


25

Действие извлечения текста из изображений называется OCR, а Ubuntu имеет страницу вики, посвящённую OCR . С этой страницы:

Доступные инструменты OCR

Хранилища Ubuntu Universe содержат следующие инструменты OCR:

  1. gocr - Командная строка OCR
  2. fuzzyocr - плагин spamassassin для проверки вложений изображений.
  3. libhocr0 - Иврит OCR
  4. ocrad - программа распознавания оптических символов
  5. ocrfeeder - Анализ макета документа и система распознавания символов
  6. ocropus - анализ документов и система распознавания.
  7. tesseract-ocr

Репозитории Multiverse Ubuntu также содержат:

  1. клинопись - многоязычная система распознавания.

Некоторые пакеты устарели, но неофициальные свежие можно найти в Alex_P PPA (код добавления PPA : ppa: alex-p /notesalexp). Если вы никогда не использовали проверку PPA как добавить программное обеспечение из PPA .

изменить: Как показано в комментарии Clara OCR существует, но он получил удар по Харди, и их веб-сайт 2009 года был обновлен последним.

ответил Rinzwind 31 PM000000120000005231 2011, 12:55:52
15

tesseract-ocr будет отличным по сравнению со всеми остальными. Для установки запустите команду sudo apt-get install tesseract-ocr.

Использование tesseract filename.jpg output.txt.

Выше команда будет генерировать output.txt.

Вы можете выбрать подходящий язык. В этом случае вам необходимо установить пакет tesseract-ocr-LANG, где LANG - это трехбуквенный код языка ISO 639-2. Прямо сейчас у вас есть 108 языков на 16.04 репо. Затем используйте tesseract filename.jpg output -l LANG

ответил Sudhir Belagali 18 AMpMon, 18 Apr 2016 06:44:27 +030044Monday 2016, 06:44:27

Похожие вопросы

Популярные теги

security × 330linux × 316macos × 2827 × 268performance × 244command-line × 241sql-server × 235joomla-3.x × 222java × 189c++ × 186windows × 180cisco × 168bash × 158c# × 142gmail × 139arduino-uno × 139javascript × 134ssh × 133seo × 132mysql × 132