найти бы хоть одного человека, который HF для инференса в проде использует
(TL;DR: генерирем кусок последовательности маленькой моделью, верифицируем большой. генерация медленная, а верификация быстрая, поэтому в некоторых сценариях огромное уменьшение latency)
Обсуждают сегодня