в 8бит, или модель которая уже в 8бит лежит в исходнике?
Слышал в 8 бит это всего лишь float -> int теряешь 1% в качестве, а выигрываешь х4 уменьшение размера. В 4bit сильное повреждение. Так ли это?
что значит "всего лишь float -> int"?
https://qdrant.tech/articles/scalar-quantization/
до недавнего времени модели в 8 битах вообще лежать не могли, а разницы так-то нет
в transformers не обычная RTN квантизация
Обсуждают сегодня