Всем привет Подскажите, пожалуйста Изучаю возможные улучшения трансформеров, дошел до rotary embeddings. 1. Правильно ли я понял, что их используют не вместо синусоидальных...
с вашими разговорами очень интересно стало какие вообще есть продвинутые техники ускорения претрейна нейронки? помимо zero условного
кстати говоря о дедупликации, есть какие-нибудь статьи/примеры/что почитать и поизучать о том, как производится чистка датасетов и не только? буду рад советам