и почему здесь таргет в 100 раз меньше чем предсказание? ты когда меряешь лосс, к каким значения приводишь? если к тем, что меньше 1, то мсе 0.008 - это значит, что ты на 9 ле...
а как тут u-net поможет? не лучше ли взять обученный resnet применять к парам картинок и поверх двух эмбеддингов обучить любой бинарный классификатор?
А что это за тензор, это выход последнего слоя lstm последнего токена? Пробовал 1 lstm слой делать?
а почему бесконечную нельзя?
почему не 1 с сигмоидой?