интеллекта ...
Посоветуйте пожалуйста.
Есть большое количество сканов документов и копий этих документов. Есть желание отделить первое от второго. Отличие в том, что на копиях стоит штамп. Место и ориентация штампа могут быть сильно разные. Качество сканов тоже сильно разное. Имеет смысл пытаться решить задачу средствами opencv?
На рисунке — образец штампа.
найти через сетку данный штамп и потом делать ранжирование. штамп можно обучить на той-же yolo, мы такое делали, решение работало точно.
Если кроме таких штампов на документах больше синего нет, то переводите в HSV, далее inRange и считайте число ненулевых пикселей. В зависимости от результата будет понятно есть штамп или нет.
Спасибо! Увы. Часть сканов черно-белая. С другой стороны — наличие на скане ТОЛЬКО синего цвета будет отличным признаком для отсеивания цветных сканов с черно-белых копий. А такие есть!
еще есть вариант с морфологией, если надпись штампа "копия верна" самая жирная в документах.
Можете подсказать ключевые слова для гугления?
Морфологическая реконструкция. Эрозией можно затереть все тонкие элементы и результат будет маркером при реконструкции, а маской исходное изображение. Я так (давно правда было) выделял название научных статей в сканах, распознавал только его и переименовывал в соответствии с ним pdf-ки пакетно.
Хочу поблагодарить за совет. Правда я решил вопрос несколько иначе (вообще без opencv). 1) Снизил разрешение в 5 раз. 2) Разделил на цветовые компоненты. 3) Распознал текст tesseracact. Получилось неидеально, но все равно очень хорошо.
Обсуждают сегодня