разных размеров. Один класс 2600 картинок (основной, где изображен нужный предмет), другой 3300 (отдаленно похожие картинки без этого предмета). Также в меньшем классе есть ошибочные картинки, где нет предмета. Какие мои действия: Я рандомно выбираю 3300-2600=700 картинок из меньшего класса и отражаю их слева на право, таким образом аугментируя изображения. Получается равное количество изображений на оба класса. Также, я делаю все картинки квадратными следующим способом - вписываю картинку с исходными пропорциями в квадрат соответствующих размеров по центру, а края (сверху или снизу) заполняю этой же сильно заблюреной картинкой. Потом я уменьшаю их до 224 х 224. Применяю resnet34 с топ слоем на 1 персептрон (я пробовал вариации dense слоев с уменьшением 512-256-128-64-32-1), ну то есть для бинарной классификации. Начинаю учить, loss binaryCrossEntropy, metrics=acc. После 3 эпох loss болтается в районе 0.70-0.68 а метрика показывает 0.5. То есть обучения не происходит. Что я делаю не так? Вообще как такие задачи решаются, может нужна более простая архитектура? С Resnet50 было все тоже самое. Не понимаю.
Нет смысла делать аугментации не на лету
Обсуждают сегодня