Распознавание ложного пространства Tesseract

Я использую tesseract для распознавания серийного номера.Это работает приемлемо, распространенная проблема, такая как ложное распознавание нуля и «O», 6 и 5, или M и H.Кроме того, тессеракт добавляет пробелы к распознанным словам там, где нет места на изображении.Следующее изображение распознано как «HI 3H» .Пример изображения 1Это изображение приводит к "FBKHJ 1R1"Пример изображения 2Таким образом, tesseract добавил пространство, хотя на самом деле его нет на изображении.Есть ли возможность параметризовать поведение тессеракта с интервалом?редактироватьИзвините, забыл добавить, что у меня тоже есть серийные номера с пробелами.Поэтому я не могу удалить все пробелы внутри распознанного серийного номера.Например, следующее изображение, содержащее пробел в серийном номере, получается после распознавания тессеракта в: J4 F1583BB .Помимо того, что распознавание символов ложное, пробел распознается правильно с этим изображением.Пример изображения 3Мои фактические параметры для тессеракта:редактироватьИз уже существующих ответов следует заметить, что расстояние между буквами «J» и «I», например, кажется немного больше, чем между другими символами.Я выбрал шрифт Monotype.Причина в том, что я подумал, что это помогает тессеракту распознавать символы.Недостатком такого моноширинного шрифта, где каждый символ имеет одинаковую ширину, является то, что ядро ​​(пространство между символами) меняется.См. Пример изображения следующего источника SourceПропорциональный и моноширинныйКак вы думаете, какой шрифт лучше всего распознает?
7 голосов | спросил Mr.Sheep 26 J0000006Europe/Moscow 2015, 14:49:16

0 ответов


Похожие вопросы

Популярные теги

security × 330linux × 316macos × 2827 × 268performance × 244command-line × 241sql-server × 235joomla-3.x × 222java × 189c++ × 186windows × 180cisco × 168bash × 158c# × 142gmail × 139arduino-uno × 139javascript × 134ssh × 133seo × 132mysql × 132