а как например ламу2 заставить коротко отвечать? я ей задаю вопросы (через retrieval qa по базе знаний, langchain), а она не останавливается пока до max_tokens не дойдет. указ...