пакет лучше показывает себя в скорости и в потреблении памяти чем dplyr.
- Для объёма данных в 1мл, будет ощутимая разница при переходе dplyr → data.table ?
- Есть ли смысл использовать оба пакета ? (может в dplyr есть свои сильные стороны перед data.table) ?
- Какие существенные отличия между пакетами помимо выше перечисленных ?
Подход "менеджера крупной корпорации" в этом вопросе приведёт в тупик. Сотни потраченных часов во всесторонней проверке и взвешивании. И-и-и-и, никакого результата или решения. Берите да используйте. Просто поверьте на слово, убедитесь позже. Можно использовать что угодно и даже в одном пайпе.
я использую оба пакета, иногда приходится возиться с "грязными" эксельками и для этого предпочитаю dplyr, также dplyr проще заходит новичкам и я иногда специально использую dplyr , если планирую отдать свой код кому-то
Не знаю, кто придумал, что data.table непонятен. Там все прозрачно. Сам по себе вопрос и страх странны, как будто речь идёт о вычитании, а не о приумножении.
я имел ввиду, что изучение R проще начинать с dplyr .... может конечно я в чем то не прав, но многие начинают именно c tidyverse, а не с base R и data.table и на то есть причины
Ну, как говорил селезнев тут, у дататейбл начинаются сложности при подходе к .SD/.SDcols, они и правда интуитивно не понятны
можно и проверить: https://h2oai.github.io/db-benchmark/
Причина ровно одна — tidyverse является слаженной экосистемой пакетов. Там функционала сопутствующего, кроме верчения фреймов, вагон и маленькая тележка. А data.table принимается в командном режиме. Взял и начал использовать. Шаг за шагом
в целом конечно холивар разводим, думаю неплохо иметь выбор из двух пактеов чем только один. Кстати был еще такой зверек как dtplyr, который конвертировал команды dplyr в data.table, но он кажется далеко не всю функциональность поддерживает, правда не знаю как сейчас, но пару лет назад было не все хорошо
это никакой не холивар и даже никаких намеков не прослеживается. я настойчиво утверждаю, что надо владеть И ТЕМ И ДРУГИМ и ни в чем себе не отказывать. не стесняться перемешивать функции, даже в одном пайпе, если так будет быстрее и понятнее. даже здесь примерами решения отдельных вопросов это демонстрировал неоднократно.
Про смену бэкендов "на лету" в концепте tidyverse можно побеседовать. Но здесь мало кому это будет актуально. В свете этого промежуточный толмач в виде dtplyr абсолютно лишний.
Если нужно быстро читать много кода, чем длиннее слова, тем меньше нужны очки)
Обсуждают сегодня