lubridate, чтобы перевести строку в dttm.
Но на больших данных она очень медленно отрабатывает. Есть альтернативы побыстрее? Тут не раз обсуждались разнообразные иные пакеты, для работы со временем...
А все dttm уникальные?
не факт, могут и повторяться
Какая доля повторяющихся?
никогда не проверял. Всегда же возможно, что два разных клиента совершили одно и то же действие в одно время. Это может сильно варьировать от датасета к датасету
Я понял, ну в этом конкретном случае вряд ли поможет, но у меня была очень похожая проблема - только я использовал функцию parse_date из parsedate. Это более умный аналог функции с тем же названием из readr. И более медленный, конечно. Так вот - я использовал мемоизацию, потому что у меня часто повторялись даты в моей задаче - это оочень сильно сэкономило время выполнения. memoised_fun <- memoise::memoise(медленная_функция)
вот тут я писал ответы почти на весь спектр подобных вопросов: https://habr.com/ru/post/555126/
эээх, подозревал, что вы скинете эту статью :)) Надо все таки взять себя в руки, прочитать и разобраться со временем. Спасибо :))
а что удивительного? вопросы в чате задаются одни и те же. и ответы на них тоже примерно одни и те же.
Марк, надо делать преобразование времени в группировке — самый эффективный шаг на реальных данных. Решение ровно такой задачи я показывал @helby_helby , там ускорение раз в 100 получилось, если не ошибаюсь.
что то не припомню обсуждения такого. ок, поищу )
возможно, частный был
вот конкретно здесь, все на блюдечке лежит, размазанное: https://habr.com/ru/post/574110/
Обсуждают сегодня