(install приложения, новый пользователь и подобное).
На протяжении суток происходит порядка 500-700 млн входов с разных устройств, новыми из которых являются всего несколько миллионов. Необходимо хранить всех новых пользователей в отдельной таблице (или мат view), поскольку пользователи сервиса как всегда хотят видеть рост количества новых устройств\пользователей он-лайн.
Первым решением был ReplacingMergeTree с ver toDateTime(‘2100-01-01’)-now(). От такого решения отказались ввиду очень медленным SELECT с FINAL. А без FINAL данные за посление часы отображались криво что не устраивает пользователей системы.
Сейчас решение такое, ежеминутно запускается скрипт который новые входы за последнюю минуту инсертит в отдельную таблицу
INSERT INTO db.firstaccess
SELECT deviceID, accessdatetime FROM db.allaccess
WHERE accessdatetime between lastupdated and now()
AND deviceID GLOBAL NOT IN
(
SELECT distinct deviceID
FROM db.firstaccess
)
понятно что это костыль и с ростом таблицы db.firstaccess все становится медленнее и медленнее.
Возможно у вас есть какие то идеи для решения таких задач без костылей? Спасибо
в replacingmergetree какой order by был? по deviceid пробовали? вообще, что-то - что ищет быстро по ключу, и позволяет делать много запросов вам подойдет больше (cassandra/scylla/любой key value/локальный dictionary/hashset в памяти) ну и добавить колонку isFirstAccess в КХ таблицу (т.е. лукап в КВ, и потом запись в КХ с соответствующим значением колонки).
uniqState today - uniqState yesterday ?
Обсуждают сегодня