Привет! Появились финальные результаты по Сайге на новых моделях. Сами новые модели: saiga2_7b_lora на LLaMA-2 7B, и её ggml квантованные версии saiga2_13b_lora на LLaMA-2 1...
а почему бы этому не работать? хоть это и то, как делать не нужно, это вполне работает
типа аттеншен + свёртки: https://openreview.net/pdf?id=r1xN5oA5tm
А вот и первые официальные результаты Сайги на Russian SuperGLUE! Оценивалась 13B модель, в текущем лидерборде она занимает скромное 17 место. Но на данный момент это единств...
И ради чего?
а автор анонса что вообще курил? каких нафиг лексем? с каких пор токены соответствуют лексемам как один к одному?
так а проблема с load_in_8bit=True в чём?
подведем итог стадий отрицания: 1) но fasttext только строит эмбеддинги (нет, не только) 2) ну нет же статьи про классификацию (нашлась) 3) можно сделать детектор лучше (нет т...
сколько весит скаченный адаптер и скаченная базовая модель?
Что значит "эмбеддинги не посчитаны"? Я же говорю, в начале матрица заполнена случайными числами
Зачем делать сложно, если можно сделать просто?
все же кстати видели поддержку assisted generation в HF? https://huggingface.co/blog/assisted-generation правда найти бы хоть одного человека, который HF для инференса в проде...
Почему один вызов-то стоит делать?
ожидается “мама моет” “мама моет стекла” “мама моет стекла в раме” “мама моет что-то в раме” ?
или речь про обучение, а не инференс? там проблема в том, что 13B часов 100 обучается
а можно hf_device_map вывести?
там карточка-то свободна?
в параметрах инференса-то правильное число тредов указали?
а можешь вывести print(model) сразу после загрузки?
дальше - модель инициализируется заново?