почти что реляционная.
наша задача: писать события, мерзить людей в один user_id по кускам, мейлам, фингерпринтам засветившимся в событиях, плюс внешние модели обучения будут писать профили этих user_id.
Структура:
табл1: user_id, cookie,mail,date (replacingtree)
Табл2: события сырые (ip,cookie,mail,url,browser...) (merge tree)
Табл3: user_id, city, main-topic, sex, age... (replacingtree?)
До этой Таблицы у нас есть полный фарш в виде Кафки и Флинна, поэтому когда происходит слияние профилей, я могу спокойно удалять свежий профиль, оставлять только взрослый (апдейт Таблицы 1) и обновлять целиком профиль (апдейт табл3)
Есть ли замечания по структуре и типам таблиц?
Смущает join Таблицы 2 и Таблицы 1 который нужен если мы хотим вытащить события этого юзера
а сколько юзеров? У меня есть похожая фигня там 350 млн. юзеров джойнится 10минут и жрет 200ГБ.
Обсуждают сегодня