скрипт прогнать на разных машинах. Получилось так:
Макбук с m1 про (16 Гб оперативки, рабочая машина с кучей постороннего открытого, поэтому еще столько же примерно с свопе) - 123 сек
Макбук с m1 макс, 64 Гб оперативки - 75 сек
Старенькая леновка, i5-8350U, 32 Гб оперативки - 150 сек
Код - обычный неоптимизированный новичковый, чтение csv/txt с диска, манипуляции фреймами в dplyr, рисование в ggplot, сохранение рисунков. Данных немного (около 50 Мб исходные текстовики), но в куче мелких файлов. Понятно, сами числа не играют роли, интересовало именно соотношение.
И вот, собсно, навеяло. А помимо мерянья бенчмарками "какая библиотека быстрее охрениллиард столбцов отсортирует" - бывают какие-нибудь тестовые скрипты именно для R, чтобы понять, насколько конкретная машина тянет - не тянет? Или, скажем, насколько посторонний софт открытый замедляет работу.
Это все будут замеры сферических коней. Надо актуальные задачи бенчмаркать
Если у вас куча мелких файлов, то HDD может играть какую-то роль
Специально не профайлил, но на глазок так и есть
Кстати, если вы запускали на ноутах, то отслеживали ли оптимизацию расхода батареи и т.д? У ноутов обычно есть профили производительности, многие просто режут потребление мощности для экономии батареи. Этот момент тоже нужно единообразно настраивать. Я у себя пробовал когда-то давно, там разница в 30% может быть буквально из-за одной кнопочки, к которой R не имеет ни малейшего отношения
Специально не загонялся настолько. Леново был на зарядке, m1, насколько я знаю, не режет производительность от батареи. Но у меня интерес был чисто для себя, понять, есть ли разница, на какой машине гонять аналогичный скрипт, где данных будет на порядок больше (скоро видится такая задача).
Это зависит от системных настроек. Я например сделал так, чтобы у меня всегда резалась мощность, пока я это не отключу. Мне кажется, это благотворно сказывается на живучести электроники. Если вы ничего не трогали, то там настройки могут быть динамические. Соответственно, если вы этот показатель никак не контролировали, то какой смысл обсуждать результаты теста? Лучше попробовать везде задать макс производительность и проверить еще раз
начнем с того, что сборки R под разные ОС разные. и либы разные используются и от самого кода зависит.
Даже если в 10 раз дольше, тоже терпимо
Если код новичковый, то рефакторинг может ускорить. Часто легко достигаются показатели в 10-100 раз. Что нивелирует роль железа даже при начительном росте масштаба задачи.
Леново на Винде?
Там похоже задача, которая плохо укладывалась в память. Думаю, там много чего можно прибить из окружения и использовать gc() чтобы крутилось все в ОЗУ без свопа. Тогда тесты сразу заиграют другими красками
сомневаюсь, " (около 50 Мб исходные текстовики)" но даже додумывать не буду, неблагодарное это дело
Обсуждают сегодня