содержит 4000 слов.
на сколько я знаю берты больше 512 не видят?
можно резать текст на куски, получать эмбеддинг куска и усреднять есть лонгформеры, но 4к слов - это очень много
Как альтернатива нарезке LongNet https://github.com/kyegomez/LongNet
как запустить-то появилось где?
Обсуждают сегодня