184 похожих чатов

Привет всем, есть какой-то универсальный способ для поиска по тексту?

Сейчас разбиваем строку на массив слов и потом hasAll(array, [‘hot, 'dog’]) по нужным словам

12 ответов

11 просмотров

Есть. Elasticsearch, например.

снаружи проверяете, что в результирующем массиве нет 1, но кх под это не заточен https://clickhouse.tech/docs/ru/sql-reference/functions/string-search-functions/#multisearchallpositions

https://clickhouse.tech/docs/en/engines/table-engines/mergetree-family/mergetree/#available-types-of-indices ngram data skip index можно попробовать, но это не полнотекстовый поиск ни разу

Bogdan-Kolesnik Автор вопроса
Slach [altinity]
https://clickhouse.tech/docs/en/engines/table-engi...

Как раз полнотекстовый не нужен, попробую

Slach [altinity]
https://clickhouse.tech/docs/en/engines/table-engi...

Я кстати так и не смог найти настройки, с которыми бы ngram индекс бы действительно что-то существенно ускорял для фильтрации текста логов :(. Может у кого-то есть пример?

Slach [altinity]
https://clickhouse.tech/docs/en/engines/table-engi...

Собственно, кажется с Вами я это и обсуждал год назад :). https://m.habr.com/ru/post/512084/comments/#comment_21885266

Yuran
Я кстати так и не смог найти настройки, с которыми...

Могу себе представить, что для поиска редко встречающихся значений он может подойти

Dmitry [Altinity] Titov
Могу себе представить, что для поиска редко встреч...

Теоретически — безусловно. Меня лично больше интересуют конкретные настройки, которые подходят для логов :). По ссылке выше я описывал свои варианты, которые пробовал.

Yuran
Теоретически — безусловно. Меня лично больше интер...

Для практики нужен датасет и ограниченных круг хотелок.

Yuran
Я кстати так и не смог найти настройки, с которыми...

ну .. у вас же врое получалось что-то около 2х раз ускорить? но в целом тут такое дело что data skip index существенно будут ускорять только если вы ищете что-то редкое. потому что оно проверяет не то что в данном парте искомый токен есть. а то что в данном парте искомого токена нет а если токен высокочастотный и есть в 100% партов, то наверное оно даже и замедлится слегка

Похожие вопросы

Обсуждают сегодня

Такой вопросец - есть функция function MySuperDuperConcat(const a: array of AnsiString): AnsiString; Как мне в её теле сделать вот так? Result:=Concat(a); А не грустный вариан...
notme
15
Есть какой-нибудь для Delphi/FPC T*Compression(Decompression)Stream на базе LZ4/Zstd/любой другой быстрый(и хорошо сжимающий) алгоритм А ещё лучше в pure pascal А ещё лучше од...
notme
48
type TObj = object procedure Init; virtual; end; TObj1 = object(TObj) procedure Init; override; end; procedure TObj1.Init; begin inherited; end; procedur...
Alexander 👋
29
А чем вам питонисты не угодили?😂
.
79
Вот смотрите у меня есть два стрима сейчас fs, cs: TStream; fs := TFileStream.Create('filename'); cs := TCompressionStream.Create(compression_level, fs); Я хочу сделать так: ...
notme
5
Всем привет, написал код ниже, но он выдает сегфолт, в чем причина? #include <stdio.h> #include <stdlib.h> #include <string.h> struct product { char *name; float price; };...
buzz базз
83
Можно ли загрузить скрипт py в бота чтобы он работал по нему? как это сделать?
huskadam #RCC Фанат? @hitlerpvp
13
Всем здравствуйте! Я хотел узнать сколько стоит средняя месячная зарплата у Electron js разработчиков? Мне очень это важно и нужно, плиз помогите узнать эту инфу! Для Джунио...
U.K.
10
Hello. Could you please help me with finding all coordinates within a radius using a spatial index, given that I have a table with coordinates? SET @lng = 37.57925; SET @lat ...
Rinchin G
8
free(NULL) это UB?
#
8
Карта сайта