миллионов записей), есть саммари каждого текста средней длины примерно в 50 слов.
Хочу прикрутить векторный поиск с помощью pgvecor, чтобы искать по косинусной близости.
Какую модель для получения эмбеддингов русского саммари порекомендуете использовать, если хочется большей точности поиска при нормальной скорости ? Robert-tiny 2, LaBSE, mUSE?
Сейчас вроде эта модель в фаворе https://huggingface.co/intfloat/multilingual-e5-large
Ага, я изучал рейтинг Давида https://github.com/avidale/encodechka: меня немного пугает размер и скорость работы этого монстра относительно других участников. Может кто на практике щупал векторные базы и подскажет оптимальное соотношение. А может вообще скажет, что нужно забить на вектора, и прикрутить Elasticsearch, дескать это сейчас лучше )
sentence-transformers/distiluse-base-multilingual-cased sentence-transformers/distiluse-base-multilingual-cased-v1 sentence-transformers/distiluse-base-multilingual-cased-v2
Считать на GPU надеюсь будете?
Планирую через коллаб, скорее всего. Но предварительно планирую оценивать варианты на скорость.
Через колаб обработать миллионы записей? А что так можно и что по цене? (Не в курсе просто возможностей колаба)
Я в колабе недавно переводил (NLLB-600M) несколько миллионов предложений 🙃
Почему эти эмбеддинги советуете, если не секрет? Типа специализированные под задачу? На практике хорошо зарекомендовали?
Практика + хорошо работают с негативными парами, далеко разносит
Обсуждают сегодня