Может ли OCR работать в разделенную секунду, если он сильно нацелен? (Маленький словарь)

Я ищу открытый ocr (возможно, tesseract) с открытым исходным кодом, который использует словарь для сопоставления слов. Например, я знаю, что этот ocr будет использоваться только для поиска определенных имен. Представьте, что у меня есть список главных гостей (написанный), и я хочу отсканировать этот список за секунду с помощью ocr и проверить это на базе базы данных имен.

Я понимаю, что традиционный ocr может попытаться прочитать каждое письмо, а затем я могу просто переписать ссылки на результаты с 100 именами, но это занимает слишком много времени. Если ocr просто фокусировался на этих 100 словах и ничего больше, он должен был бы сделать все это за долю секунды. То есть нет смысла угадывать, что слово может быть «Jach», поскольку «Jach» не является именем в моей базе данных. Ocr должен иметь возможность сделать вывод, что это «Джек», поскольку это фактическое имя в базе данных.

Это возможно?

2
nl ja de

1 ответы

Это должно быть возможно. Подумайте об этом так: вместо того, чтобы ваш OCR выглядел «J», он мог искать «Джек» напрямую, вроде: как индивидуальный символ .

Поэтому, когда вы тренируете/откалибруете свое OCR, тренируйте его с изображениями целых слов, аналогично тому, как вы бы - для отдельного символа.

(если эта функция не доступна непосредственно в вашем OCR, тогда сначала сопоставьте изображения целых слов с уникальным символом и затем преобразуйте этот символ в последнюю строку слов)

2
добавлено
Большое спасибо!
добавлено автор fusilli.jerry89, источник