Ребят всем привет, такой вопрос кто использует Windows а кто Ubuntu ?? Хотел бы узнать какой ОС лучше в плане ML
Возник спор с коллегами по поводу seed-ов и воспроизводимости экспериментов в ресёрче Предположим, я делаю что-то с предобученной моделью (bert) перед дообучением для конкрет...
https://www.threads.net/t/Cunac1TACVy/?igshid=MTc4MmM1YmI2Ng==
Всем привет! Подскажите, пожалуйста, какое железо подойдёт для fine tuning saiga2 версий 7b, 13b и 70b соответственно?
Помогите мне пж с формулировкой для доклада. Как лучше всего описать T5 в 4-5 предложениях, чтобы передать, в чем заключается суть и в чем он лучше предшестенников? seq2seq бы...
Добрый день, подскажите, а в академии кто-то занимается сейчас мультимодальными сетями? Или только openai/google и др. могут себе позволить серьезный рисерч там?
в huggingface/transformers по дефолту дп или ддп, если включаю трейнер на машине с несколькими гпу?
есть пример задачи, на которой нлп модели с ростом числа параметров деградируют?
Кто в курсе как из хагингфейсовских токенизаторов убирать нежелательные токены? Делаю так, результат не очевидный. Кроме того, как модель понимает, какие именно эмбеддинги ей ...
Всем привет в этом чате! Помогите, пожалуйста, разобрать с КУДой и PyTorch'ем для очень продвинутой карточки A100-SXM4-40GB. Компьютер во внутренней сети, так что просто...
Добрый день, подскажите, пожалуйста, с чего начать, если есть задача сделать резюме с нескольких коротких постов?
Всем привет! Я дообучаю разные генеративные модельки (GPT и другие, оптимизатор AdamW), и время от времени они получаются плохими, хотя данные и лосс вроде бы в порядке. Это в...
>мы инферим все токены декодера при каждом шаге имеется в виду что к текущему токену аттендятся все предыдущие? ведь на самом деле эмбеды предшествующих токенов не пересчитыв...
Кто знает что можно посмотреть по задаче классификации сгенерированного text summarization и написанного человеком?
А кто-нибудь может подсказать есть ли где-то база данных по морфологическим формам слов? Для разных языков? Примерно то что в примерах treebank названо word paradigm: https://...
всем привет, а в области аудио есть какие-то подходы к предобучению моделей на неразмеченных данных в стиле берта? кроме банальных автокодировщиков (обучил что-то типа AE на с...
типа из линий?
идею денойзинга наверное?
Кстати кто игрался с BART/T5? Я тут недавно понял что ни разу не запускал эти модели и кажется что-то упускаю.
а разве они стали лучше опенсорсных?