Какой промпт стоит использовать, чтобы модель выдавала более длинный, подробный ответ на заданный вопрос? Пробовал: Answer must be X words in length Answer must be complex An...
Всем привет, я запутался тут с LoRA, никогда ей раньше не пользовался. Я хочу подключить её к модели, чтобы там добавились эти дополнительные матрицы для обучения. Но при этом...
Всем привет, подскажите, пожалуйста, насчёт тюнинга сайги на свою задачу. Верно ли, что я должен вначале скачать лламу, смерджить веса адаптеров, сохранить модель, а потом тол...
Подскажите, а как делать суммаризацию с помощью LLM, если в неё не влезает весь текст?
Подскажите, пожалуйста, а у каких опенсорс LLM сейчас есть длинный input в токенах? Запутался, какой сейчас максимальный контекст для llama2? В конфиге написано - max_position...
Нужно ли делать padding текстов для дообучения LLM моделей (на основе llama)? В токенайзере нет pad токена. И не очень ясно, нужен ли padding, если там есть eos_token. И если ...
Я верно понимаю, что в hf (huggingface.co/docs/transformers/tasks/multiple_choice) при файнтюнинге модели на multiple choice - модель по факту обучается на бинарную классифик...
Всем привет, кто-то знает, сколько весит в ГБ llama2 70B? И можно ли её как-то запустить будет на одной А100?
Так я не понял в итоге. Если я хочу тюнить ламы всякие, к которым прикрепил адаптеры русские. Мне надо слить их и обучать новые адаптеры? Или можно сразу дообучать эти же адап...
Что происходит про изменении параметра max_sequence_length в моделях (Bert, Deberta) из huggingface? Берт максимум принимает 512 токенов, сохраняются ли pretrained веса при ум...
То есть для русского будет лучше иностранная модель типо openorca, openchat?
https://huggingface.co/Open-Orca/Mistral-7B-OpenOrca/blob/main/config.json А насчёт мистраля - "max_position_embeddings": 32768 -> у него такая длина, значит? Там просто ест...
Хотел использовать llama2 для генераций ответов на вопрос, то есть мне не нужен диалог с ней. Но наткнулся на такую таблицу. Верно ли из этого, что 70B-chat может сработать лу...
И каждый блок тюнить на таргет саммари?