215 похожих чатов

Всем добрый вечер! Передо мной стоит задачка бинарной классификации фотографии документа

(загружен нужный документ/ненужны)

Сейчас использую pretrained VGG16 с весами imagenet и два fully connect лейера чтобы сузить output до бинарной классификации.

Датасет из реальных фоток, но их немного:
150 фото правильного документа
800 фото мусорных документов
(Пробовал и в соотношении 1:1, чтобы датасет был сбалансирован)

Сейчас accuracy равен количество неверных фото/количество верных фото.
А это значит, что на выход я получаю модель, которая говорит "всегда нет" или "всегда да" 💁‍♂

У меня есть пара гипотез почему все идёт по одному месту:
1) Мало данных
2) Фото документа, распечатанного на принтере, а затем сфотканного на камеру после сжатия до 224х224 пикселей становится неприменимой для нахождения фичей
3) VGG16 с весами imagenet больше подходит для классификации более "повседневных" фото, нежели документов

Нужна помощь с ответами на вопросы:
1) Есть ли какие-нибудь модели в открытом доступе, которые были натренированы на поиск фичей документов?
2) У меня есть PDF файл с документом, есть ли ризон нагенерировать синтетический датасет из этих "идеальных" данных?
3) Почему много CNN используют данные формата 224х234х3? По вашему, подойдёт ли для фото документов?

4 ответов

11 просмотров
Kamil- Автор вопроса

Кто-нибудь может подсказать? пожалуйста

Все три гипотезы кажутся рабочими

Да, а чем правильный документ отличается от мусорного?

Ответы на вопросы: 1) скорее всего да, гуглить что-то типа “ocr document detection” (сам навскидку ненагуглил, но у абби что-то подобное видел, вроде), 2) да, 3) скорее всего какой-то удобный размер для нарезки данных в видеокарту :)

Похожие вопросы

Обсуждают сегодня

Ну вот просто даже давайте вот как. Какой нибудь конкретный кейс, можете в пример привести, где бч работает и приносит прикладную пользу, а не просто что бы было? Не крипту.
Alexander Andreev
22
Всем привет! Имеется функция: function IsValidChar(ch: UTF8Char): Boolean; var i: Integer; ValidChars: AnsiString; begin ValidChars := 'abcdefghijklmnopqrstuvwxyzABCDE...
Евгений
44
объясните пожалуйста, почему функция не работает должным образом? вроде должно брать активное окно сравнивать его размер с размером экрана, и если есть совпадение = true прове...
JF
9
> Копаем глубже > Следующий момент был, когда я спросил его, знает ли он JavaScript. Он ответил, что его учили работать с C#. Я тоже в университете писал на C#, но даже там мн...
Oleg Volkov
4
лучше скажите, причём тут паскаль?
Alexey Kulakov
36
И никого не интересует какие пакеты кто использует. ((% Заходишь на сайт симфони и видишь поддержку Украины - по законам РФ это ж экстремизм. Только никто не отказывается от с...
Am Ambrion
11
Чтобы перехватить все нажимания буков на форме, надо хук ставить? Пробовал на форме ОнКейДаун, оно ловит клаву если фокус не на компоненте с вводом текста
Serjone
15
Народ! Впервые клиенту пришло письмо от РКН, у вас, дескать, есть яндекс метрика, а нигде не написано, что вы ее юзаете. Никто не сталкивался?
Sasha Beep
14
Но, может, есть уже проверенная? Наши требования такие: 1. Сообщения должны приходить из Инста в CRM оду 2. Должна быть возможность подключить несколько экаунтов Инстаграм. Р...
Alexander Sharoiko MSE / Александр Шаройко
7
Всем привет! вывожу на общей стр дочерние ресурсыв каждом ресурсе галерея, и первая фотка должна выводиться на общей [!DocLister? &prepare=photo !]
Alekso
12
Карта сайта