вопросы (через retrieval qa по базе знаний, langchain), а она не останавливается пока до max_tokens не дойдет. указания в промпте игнорит
температуру в 0 выставить?
да, может не в ноль, но поиграть температурой, мне удавалось сократить ответы именно так, через промпт напрямую не получалось, правда это с Фредом-Т5.
не помогает, а еще почему-то она не просто дополняет до макс_токенс осмысленным текстом, а просто повторяет 3-4 последних токена 🙈
repetition penalty можно навалить
А вы какую llama2 используете? Как поднимали? Есть актуальные статьи, примеры по локальному запуску?
пробовал, помогает, но начинает сутевую часть съедать генерации. как подобрать оптимальное значение пока не разобрался
7-b-chat, через privateGPT + ctransformers
Обсуждают сегодня