Кстати, о плодах трудов этого самого оставшегося без внимания обыкновенного

интеллекта ...

Посоветуйте пожалуйста.

Есть большое количество сканов документов и копий этих документов. Есть желание отделить первое от второго. Отличие в том, что на копиях стоит штамп. Место и ориентация штампа могут быть сильно разные. Качество сканов тоже сильно разное. Имеет смысл пытаться решить задачу средствами opencv?
На рисунке — образец штампа.

7 ответов

21 просмотр

найти через сетку данный штамп и потом делать ранжирование. штамп можно обучить на той-же yolo, мы такое делали, решение работало точно.

Если кроме таких штампов на документах больше синего нет, то переводите в HSV, далее inRange и считайте число ненулевых пикселей. В зависимости от результата будет понятно есть штамп или нет.

Alexander-Morozov Автор вопроса
Alex
Если кроме таких штампов на документах больше сине...

Спасибо! Увы. Часть сканов черно-белая. С другой стороны — наличие на скане ТОЛЬКО синего цвета будет отличным признаком для отсеивания цветных сканов с черно-белых копий. А такие есть!

Alexander Morozov
Спасибо! Увы. Часть сканов черно-белая. С другой с...

еще есть вариант с морфологией, если надпись штампа "копия верна" самая жирная в документах.

Alexander-Morozov Автор вопроса
Alex
еще есть вариант с морфологией, если надпись штамп...

Можете подсказать ключевые слова для гугления?

Alexander Morozov
Можете подсказать ключевые слова для гугления?

Морфологическая реконструкция. Эрозией можно затереть все тонкие элементы и результат будет маркером при реконструкции, а маской исходное изображение. Я так (давно правда было) выделял название научных статей в сканах, распознавал только его и переименовывал в соответствии с ним pdf-ки пакетно.

Alexander-Morozov Автор вопроса
Alex
Морфологическая реконструкция. Эрозией можно зате...

Хочу поблагодарить за совет. Правда я решил вопрос несколько иначе (вообще без opencv). 1) Снизил разрешение в 5 раз. 2) Разделил на цветовые компоненты. 3) Распознал текст tesseracact. Получилось неидеально, но все равно очень хорошо.

Похожие вопросы

Обсуждают сегодня

Hi! Could you please upvote my new notebook? thanks a lot. https://www.kaggle.com/code/melissamonfared/anime-character-generation-dsgan-gan
məru
4
upvote plz https://www.kaggle.com/code/bassetkerouche/swapping-face?scriptVersionId=207300096
benkerrouche Statoinary
1
-- Привет всем. -- Есть csv, проблема в том что он содержит очень много повторов по столбцам и по строкам. -- Решил перекинуть это в базу данных, чтобы было проще. Но я не ша...
Oleg Ivanov
1
Как считаете - вопрос на собесе: «Как быстрее всего запустить ec2 машину в aws (в чистом аккаунте) и показать вывод от любой команды с нее» не очень ли сложный для условного м...
Sergey
50
Господа, у меня вопрос. Что вообще такое этот ваш data science и data scientists? А то гуглю, а мне какую-то расплывчатую фигню говорят.
Inkosta
44
Hi could you please help me with my two new projects? https://www.kaggle.com/code/hesankazemnia/rice-image-classification-cnn-pytorch https://www.kaggle.com/code/hesankazemnia...
Hesan
6
Исходя из ваших комментариев, получается, что чтобы получить марты в CH из данных в PG, неправильно тянуть сырые данные в CH и там их обрабатывать, лепить справочники и джойни...
unhingedlunatic
42
hi, Can you upvote? https://www.kaggle.com/code/durjoychandrapaul/rag-q-a-system-by-langchain-huggingface-for-pdf?scriptVersionId=204704280
A
1
Could you upvote and comment please? https://www.kaggle.com/code/tatianapetrushkevich/beginner-images https://www.kaggle.com/code/tatianapetrushkevich/python-for-beginners1 ...
Tazziyana
7
Коллеги, приветствую! Появилась не совсем тривиальная задача реализовать в nginx редирект HTTPS —> HTTP. Да, именно так, а не наоборот. Мы разрабатываем embedded устройство,...
Никита
24
Карта сайта