Всем салют! Видел ли кто нибудь статьи или блогпосты или туториалы по файнтюну Flan T5 или других инструкт-моделей? Пытаюсь понять, как лучше при тюнинге добавлять in-contex...
Всем привет, подскажите пж, какие модельки сейчас в моде для работы с лигал доменом? Классификация (few shot), NER (zero-shot/few-shot), матчинг сущностей в документах. Для м...
Three models are used for the tree structure selection and the fourth is used to compute the leaves values of the final model that we save то есть всю датку перемешивают 4 ра...
сколько объектов в датасете? если не миллионы, то с учетом этих ограничений выглядит так, что нужно взять предобученную сетку на соотв. языке (трансформер), прогнать разово, с...
https://www.threads.net/t/Cunac1TACVy/?igshid=MTc4MmM1YmI2Ng==
Помогите мне пж с формулировкой для доклада. Как лучше всего описать T5 в 4-5 предложениях, чтобы передать, в чем заключается суть и в чем он лучше предшестенников? seq2seq бы...
Всем привет. читаю доку, такой вопрос возник по странице https://catboost.ai/docs/concepts/algorithm-main-stages_cat-to-numberic.html#algorithm-main-stages_cat-to-numberic обр...
>мы инферим все токены декодера при каждом шаге имеется в виду что к текущему токену аттендятся все предыдущие? ведь на самом деле эмбеды предшествующих токенов не пересчитыв...
и второе - помню, что слышал про несколько разных шаффлов объектов перед расчетом скользящих счетчиков, где про это можно прочитать? сходу не нашел
ахаха xxl поди будет как клауди-инстант?
А тi точно не бот!?
За этими двумя тремя годами стоит какой то бэкграунд. Если хочется нанять мартышку, которая копипастит из доков и публичных репозиториев код, то зачем ей платить?)
Насчёт докопаться - кто-то встречался с тем, что print, stdout почему то отрабатывают после завершения всей программы, игнорируя вывод во время работы? Расставил для проверки ...
Можно, на какой будет прок, какой смысл? Я может не так понял из написанного, но выходит, что три столбца не связаны между собой? То есть нельзя результирующий назвать "значен...
Странное представление. Будто на джуна(а куда ещё может возникать такая дилемма?) Нужно ТАК много математического аппарата, с которым просто не разобраться без прекрасного(нет...
Ну это понятно. У меня вопрос в другом: деревянные методы неэффективны при огромном числе фич, как бывает с языками/текстами. Как вообще градиентный бустинг к ним применяется?...
а как, по твоему, спарс матрица в памяти хранится и чем они отличается от обычной?
Ну смотри, есть две группы людей - кому тест крови на рак показал положительный и отрицательный результат. Какое распределение здоровых / больных будет в одной и другой группе...
Это к чему?) Речь о том, что Либы сделаны и для этого Фурье знать не надо.
"умение работать с таблицами, способность подтянуть данные из одной в другую" за 40-80к?) можно к вам на ставку full-time 100к, если я, но на питоне, делаю алгоритмы, уже гото...