(нужны хорошие, годные эмбедиднги для статей на 15-20 тысяч слов). где взять? чтобы без всяких усреднений обойтись и разбиения на параграфы
https://t.me/abstractDL/243
Сжимает 16к в длину 312
Закинул в qdrant. Копию текста по анатомии, такой же как в семантической базе. Как видно текст по химии не сильно отличается от анатомии. А текст с анатомией у него похож чуть ли не слов в слово. Хотя на входе совсем другой кусок текста. Для верности - подсунул текст в запрос по астрономии. В общем он был схож с химией на 0.8 скор. я такое симилярити не люблю
Вот пример как модель отрабатывает. Почему нужно изучать, где это порог когда нужно отсекать. На мой взгля это противоречит самой функции симилярити и эти модели просто дурацкии для таких задач.
дурацкие с точки зрения какой метрики?
с точки зрения здравого смысла
разница в милях километрах тоже противоречят самой идее расстояния?)
пока это звучит как "они дурацкие потому что мне не нравятся числа"
Обсуждают сегодня