есть мультистроковая дата до 200кб на пару млрд записей. Стоит ли использовать для полнотекстового поиска Clickhouse? или смотреть в строну elastic/solr?
CH использовать стоит если вам надо писать пару млрд. в день и кластер из 10ти elastic не справляется на запись, и искать вы собираетесь редко. У CH нет полнотекстового поиска (индексов) поэтому практически КХ будет делать фулскан, его успешно используют вместо elastic если у вас например 5 тыс. серверов и надо писать их логи и очень редко искать, причем искать зная период поиска, а в эластик просто невозможно засунуть такой поток.
А тебе нужен полнотекстовый поиск или поиск по подстроке?
Общий размер в 100TB исходных данных? Боюсь, тут решения из коробки уже не очень подойдут, нужно смотреть на специфику задач, может на CH свой индекс строить (про это был доклад, насколько помню).
нет, их не так много на самом деле. Там просто исходный код страниц.
полнотекстовый желательно
мне надо один раз записать и потом постоянно читать)
Тогда лучше не CH, там ни стемминга, ни флексий, ни прочих фишек полнотекста нет. Так что elastic или сфинкс
Обсуждают сегодня