макс размер входного и выходного контекста? Или у локальных моделей он всегда суммарный input+output? Потому что у gpt4 turbo, который с контекстом 128k токенов, размер output только 4к.
А у LLM разве вообще выделяют входной и выходной контекст?
и да, и нет просто активации для входа можно параллельно считать а для выхода - нельзя то есть сгенерировать 10 выходных токенов при условии 1000 входных токенов стоит раз в 100 дешевле, чем 1000 выходных токенов при условии 10 входных токенов
В целом правда. Что-то такое я и имел ввиду в "удешевлённая модель будет выдавать более короткие ответы, т.к. их дешевле генерировать".
Обсуждают сегодня