оценивал потенциал R. Просто очень много времени потерял пытаясь все свои задачи тащить исключительно на PBI, а сейчас часть пилю на SQL сервере, часть в пандах, а остальное в PBI. И вот наткнулся на R. На данный момент мне очевидно, что универсального средства нет, так sql сервер делает вычисления на миллионы строк, pandas отлично "итерирует", а в PBI хорошо "сшивать/перешивать" модель данный. А как вы именно используете R, как он работает с датасетами с миллионами строк? То, что визуализация у него круче это бесспорно, а в остальном? Не хотелось бы опять методом проб и ошибок, хочу услышать мнение "бывалых".
Зависит от задач. Обычно миллионы строк — чихнуть не успеешь. А pbi во многих задачах может быть заменён shiny, причём куда успешнее. Панду вообще лучше не трогать — их косяки неоднократно обсуждались.
Спасибо за отклик, интересно... Панды действительно лагают ( у меня на datetime и локации) но их скорость и "пакетный"(батчевый подход) хорошо решает многие задачи. Но ни панды ни PBI не могут сделать нарастающий итог с группировкой по 4 столбцам если количество строк больше 10 миллионов. Пришлось прибегнуть к mySQL. А у Вас какой придел вычислений в rstudio?
Легко. Пересаживайтесь не раздумывая. Бенчмарки Вам в аргументацию: https://h2oai.github.io/db-benchmark/
мой датасет 70 лямов, как вы думаете потянет с группировкой с кумулятивным итогом?
У меня где то 228M
И группировка в data.table без проблем)
Огогули а сколько оперативной на Вашей машине?
От 16 до 128. Разные машинки
Обсуждают сегодня