170 похожих чатов

Всем привет! А какие есть бест практис, чтобы хранить большие

обьемы текстов, при этом делать поиск как по самим текстам, так и по метаданным и по заранее извлеченным фичам?

8 ответов

13 просмотров

бейзикли любая векторная бд для продакшена...

ну или эластик...

Mairna- Автор вопроса
Sergey Bratchikov
бейзикли любая векторная бд для продакшена...

Спасибо! А можно какой-нибудь пример из своей практики?

Mairna
Спасибо! А можно какой-нибудь пример из своей прак...

Лучше примера из практики на выбор любой нужной вам бдшки мне кажется сложно найти https://github.com/openai/chatgpt-retrieval-plugin/tree/main/datastore Отдельно в папке examples можете еще и докерфайлы найти нужные доя развертывания В папке docs инструкция по установке почти для каждого провайдера

Mairna
Спасибо! А можно какой-нибудь пример из своей прак...

Милвус не берите, он поднимает 100 (ну ладно 4) контейнера, при индексации больших объемов данных начинает падать с ошибками на гоу, хотя клиент на питоне. На гитхабе мне так и не ответили почему и что делать. Эластик тоже не берите, по шардам ищет последовательно (следовательно очень медленно). Квадрант и редис всс - топ!

Etki
> по шардам ищет последовательно Эм

Вернее по сегментам, но смысл тот же We do segment searches serially. So, comparing your two open KNN search tickets this is what I think is happening. You are on a single node with a single shard. That single shard has 49 segments, each seems to be an OK size (at least a GB or so). But, this then means, on a single node, you are exploring 49 different HNSW graphs. In the future, we want to make KNN work in parallel on the same shard but with different segments, but right now, that doesn't happen.

Похожие вопросы

Обсуждают сегодня

Господа, а что сейчас вообще с рынком труда на делфи происходит? Какова ситуация?
Rꙮman Yankꙮvsky
29
А вообще, что может смущать в самой Julia - бы сказал, что нет единого стандартного подхода по многим моментам, поэтому многое выглядит как "хаки" и произвол. Короче говоря, с...
Viktor G.
2
30500 за редактор? )
Владимир
47
а через ESC-код ?
Alexey Kulakov
29
Чёт не понял, я ж правильной функцией воспользовался чтобы вывести отладочную информацию? но что-то она не ловится
notme
18
У меня есть функция где происходит это: write_bit(buffer, 1); write_bit(buffer, 0); write_bit(buffer, 1); write_bit(buffer, 1); write_bit(buffer, 1); w...
~
14
Добрый день! Скажите пожалуйста, а какие программы вы бы рекомендовали написать для того, чтобы научиться управлять памятью? Можно написать динамический массив, можно связный ...
Филипп
7
Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
Ребят в СИ можно реализовать ООП?
Николай
33
https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_h_common.erl#L174 https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_olp.erl#L76 15 лет назад...
Maksim Lapshin
20
Карта сайта