reg_time,
sessions с колонками user_id, open_time, close_time
и таблица levels с колонками user_id, upgrade_time и level
Конечная задача - посчитать сколько времени уходит у каждого пользователя на апгрейд между каждым уровнем.
Сейчас на скрине таблицы смерджины неверно. Расскажу почему и задам вопрос.
Сейчас в левой части таблицы находятся user_id, даты регистрации, время начала и окончания сессии. В правой части - уровни и время апгрейда. Если приглядеться, то можно увидеть, что количество строк в левой части растянулось на количество уровней в правой части для каждого пользователя для каждой сессии. И похоже, как будто в каждую сессию пользователь начинает путь по уровням заново, но время апгрейдов пересекается как с прошлыми, так и с текущими, так и с будущими сессиями.
По идее надо слить таблицы так, чтобы время апгрейда приходилось на то окно сессии, которое ему соответствует.
В SQL можно зашить что-то подобное через объединение по признаку RIGHT JOIN on levels.upgrade_time < sessions.close_time AND levels.upgrade_time > sessions.open_time
Как это сделать в python?
Затем я обновлю расчет разниц между датами.
Оба ответа хороши https://stackoverflow.com/questions/50573457/pandas-equivalent-of-sql-non-equi-join
спасибо, попробую
Обсуждают сегодня