в T5? Я использую Seq2SeqTrainer с DataCollatorForSeq2Seq (max_length в нем пробовал, не помогает)
На скриншоте print из compute_metrics, target - текст из датасета нормальной длины, а нейронка выдает слишком короткий prediction (ну и потом, при использовании уже обученной модели видно, что она не умеет заканчивать предложения)
В лэйблах маст хэв EOS токен
Так он там и есть, это </s>
И в generate есть максимум длины, минимум и пенальти за длину При обучении всё это не нужно
Обсуждают сегодня