Привет! Собрал огромный корпус русскоязычных новостных текстов в postgresql (несколько

Question

Привет! Собрал огромный корпус русскоязычных новостных текстов в postgresql (несколько

миллионов записей), есть саммари каждого текста средней длины примерно в 50 слов.

Хочу прикрутить векторный поиск с помощью pgvecor, чтобы искать по косинусной близости.

Какую модель для получения эмбеддингов русского саммари порекомендуете использовать, если хочется большей точности поиска при нормальной скорости ? Robert-tiny 2, LaBSE, mUSE?

#nlp #programming #russian

0

15.10.2023

9 ответов

25 просмотров

Max K. Автор вопроса

Futorio Franklin
Сейчас вроде эта модель в фаворе https://huggingfa...

Ага, я изучал рейтинг Давида https://github.com/avidale/encodechka: меня немного пугает размер и скорость работы этого монстра относительно других участников. Может кто на практике щупал векторные базы и подскажет оптимальное соотношение. А может вообще скажет, что нужно забить на вектора, и прикрутить Elasticsearch, дескать это сейчас лучше )

0

15.10.2023

Konstantin Galagan

sentence-transformers/distiluse-base-multilingual-cased sentence-transformers/distiluse-base-multilingual-cased-v1 sentence-transformers/distiluse-base-multilingual-cased-v2

0

15.10.2023

miteigi nemoto

Считать на GPU надеюсь будете?

0

15.10.2023

Max K. Автор вопроса

Планирую через коллаб, скорее всего. Но предварительно планирую оценивать варианты на скорость.

0

15.10.2023

miteigi nemoto

Max K.
Планирую через коллаб, скорее всего. Но предварите...