обьемы текстов, при этом делать поиск как по самим текстам, так и по метаданным и по заранее извлеченным фичам?
бейзикли любая векторная бд для продакшена...
ну или эластик...
Спасибо! А можно какой-нибудь пример из своей практики?
Лучше примера из практики на выбор любой нужной вам бдшки мне кажется сложно найти https://github.com/openai/chatgpt-retrieval-plugin/tree/main/datastore Отдельно в папке examples можете еще и докерфайлы найти нужные доя развертывания В папке docs инструкция по установке почти для каждого провайдера
Милвус не берите, он поднимает 100 (ну ладно 4) контейнера, при индексации больших объемов данных начинает падать с ошибками на гоу, хотя клиент на питоне. На гитхабе мне так и не ответили почему и что делать. Эластик тоже не берите, по шардам ищет последовательно (следовательно очень медленно). Квадрант и редис всс - топ!
> по шардам ищет последовательно Эм
Вернее по сегментам, но смысл тот же We do segment searches serially. So, comparing your two open KNN search tickets this is what I think is happening. You are on a single node with a single shard. That single shard has 49 segments, each seems to be an OK size (at least a GB or so). But, this then means, on a single node, you are exploring 49 different HNSW graphs. In the future, we want to make KNN work in parallel on the same shard but with different segments, but right now, that doesn't happen.
Обсуждают сегодня