string? есть ли CH таблица с сессиями, с юзерами? какая топология кластера, какие впечатления у админов? какое отставание от реалтайма?
>> почему page_view меняется, дописываете клики? Да, клики по блокам, клики по внешним ссылкам, e-commerce, custom variables, время просмотра страницы и т.д. >> почему время float, почему user_id string? Время float делали на момент проектирования, для более точной сортировки, но в данный момент это ничем не помогает - возможно откажемся от этого. user_id - string потому что это структура данных, из которой можно достать некоторые параметры. По хорошему надо доставать эти параметры и записывать отдельно. Тоже будем допиливать. >> есть ли CH таблица с сессиями, с юзерами? Для статьи я намеренно упростил таблицу. У нас одна большая таблица, под 100 колонок. Плюс несколько справочников, например для geo. Отдельной таблицы сессий нет, сессия представлена айдишником. Количество сессий считается как uniqCombined(session_id). >> какая топология кластера, какие впечатления у админов? Вопрос про топологию поясните, пожалуйста. И какой кластер имеется в виду: CH, spark, kafka? >> какое отставание от реалтайма? Зависит от нагрузки. Мы сейчас переехали на новый кластер и из-за этого в пиках бывает до полутора часов. Это очень долго, оптимизируем и добавляем тачки. Тормозим не об кх.
Обсуждают сегодня