знаю по fine-tune llm, что значит считать лосс только по генерации ассистента?
Просто я вот как раз похожий датасет скормил и на выходе получил не ответ, а новую сгенерированную беседу(
во время трени вы учите модель предсказывать следующий токен, имея в контексте все предыдущие если будете учить предсказывать токены, которые сгенерил юзер -> то на инференсе модель будет пытаться генерить фулл диалог поэтому лосс считайте только по токенам, которые ассистент писал
Для multi-turn диалогов просто маску делаете 0/1 для лосса выглядеть примерно так будет [000000011111111111110000011111100011111] 0 это текст который юзер писал 1 который ассистент писал
Обсуждают сегодня