ты представляешь скок стоит трен на 1т токенах для 7б?
Чат а целиком кто учил мистраль? В а100 влезает?
вы предлагаете опенсурсу который делается ильей и сашей на свои деньги прогонять 100500**2 sbsов вместо новых моделей?
блин народ, чо за костыли?)) есть TGI он умеет в батчинг, даешь ему модель а дальше голова не болит https://github.com/huggingface/text-generation-inference
а какой смысл от 4 3090? ddp разве что учить
Чат у кого то было так что модель подружена, процесс запустился, но все повисло и первый батч не проходит?
чат, а кто то в курсе сколько эпох она прошла?
А почему не mgpt?
а чо не понято то?
Чат, а кто то занимался мержем sentencepiece токенайзеров? пробовал ставить piece.score=- int.max но не помогает/пробовал 0 и int.max поведение не меняется ловлю проблему что...
Коллеги, а какие есть крупные русские чистые датасеты? Russian superglue, wiki, habr, cyberleninka, (?) Что ещё?
Ты видел успешные мое модели?
она все равно лучше текущего русского опенсурса, особо вариантов и нет больше?
гайс, а есть опыт противостоянмя взрывам flan t5 в fp16?
и почему вы не хотите контрибнуть в русские бенчи?
Чат, кто то уже тащил 30б в прод? Есть значительный рост бизнес метрик относительно 7б-13б
типа из линий?
Всем привет, а кто то инференсил трансформер на нескольких гпу? Есть коробочные способы?
возьмите fred/rugpt/llama и дотюньте?
а ты софию оптимайзер трогал?