заданного publisher. Запрос считается спамом, если он приходит от одного и того же ua (user agent) и ip_address в интервале менее 10 секунд. Запрос написан на основе одного из предыдущих ответов @den_crane. И судя по тестам он корректен. Но хотелось бы узнать:
1. можно ли его оптимизировать по потребляемой RAM? На больших массивах данных возникает ошибка "Allocator: Cannot mmap 128.00 MiB" https://github.com/ClickHouse/ClickHouse/issues/5784 Я так понимаю, sequenceMatch тут не подходит...
2. как можно получить разом результат сгруппированный по всем publisher?
вообще windowFunnel должен подойти что то вроде select publisher, count(is_spam > 1) from (select publisher, windowFunnel(10)(ts, 1, 1) as is_spam from test.funnel group by publisher, ua, ip_address) group by publisher
Обсуждают сегодня