Коллеги, посоветуйте пожалуйста хорошую мистраль с контекстом от 16к? Нашел такую, никто не пробовал тюнить? https://huggingface.co/amazon/MistralLite
а мистраль есть смысл обучать не инструкциям с ответами а чистому тексту инструкций, документации? он сможет после такого дообучения давать ответы по инструкциям?
коллеги, это нормальная ситуация? Пытаюсь тюнить openchat на данных с длиной контекста до 8192 токенов, при 16 битах не влазит в a100 при дообучении с lora
Microsoft хотят всех спасти. Они представили resnet архитектуру. По качеству на уровне трансформеров , но инференс гораздо быстрее https://medium.com/@vishal-ai/retnet-transf...
Есть что то доступное на 48гб?
A5000 или 4090?
Спасибо. Тут можно публиковать вакансии?
а кто нибудь карты от AMD серверныетрогал?
а wave2vec как ускорить можно?
Такие видел. Больше нет?
Хоть какая то из русских моделей превзошла уже gpt3.5 turbo?
Могу ещё презу наумена про asr/tts скинуть. @nshmyrev . Нужно? Можно?
Коллеги, кто то сталкивался с Nvidia a10? Её можно настроить на работу в windows 10?
А не знаете сколько параметров у gpt3.5 turbo?
На каком классе? Или усредненная ?
Коллеги, подскажите пожалуйста, модель дообученная через lora с адаптером способна переучиться ещё раз с помощью lora на своем датасете? можно ли сохранить модель с lora в фор...
А реально распараллелить fine tune Лора на два отдельных ПК с разными по объему памяти gpu по сети?
коллеги, подскажите пожалуйса, Whisper уже умеет в tts на русском? Есть примеры и код?
Николай. А есть возможность запуска маленькой модели прям в браузере? Для tf к примеру есть TensorFlow.js
Коллеги, посоветуйте пожалуйста датасеты с суммаризацией по диалогу ?