то есть это сек2сек, как его для классификации использовать?
https://github.com/osainz59/t5-encoder
Попробовал rut5 base, эвал лосс 0.75 против 0.81 у bert-base у которого ещё и был расширен токенайзер и сделан further pre train на своем корпусе. По времени-памяти столько же. На заметку тем кто как и я решал энкодерскую задачу и думал что для этого есть только берты
Обсуждают сегодня