А кто-нибудь знает сравнения ретривел-бейс чатботов и генеративных ЛМ? Что лучше заводится, помнит контекст, не односложно отвечает? А то все ретривелы мерят на датасете Убунт...
А "king - man + woman" вообще часто бывает в w2v? Это же вроде очень специфичный пример, а в среднем сумма даже двух слов мало что дает?
Ничего не понял. Есть тексты, их много и их нужно сохранить, чтобы потом переиспользовать? Зачем тут что-то, кроме сохранения текста на диск?