данных портфеля, каким образом подключались к базам? Напр. из R скрипта через пакеты типа RODBC, или делали выгрузку в csv, потом загрузку в data.table. Может другие варианты?
работал в связке R+PostgreSQL, R+Clickhouse, выгрузка десятков и сотен миллионов строк занимает время не больше часа, в зависимости от запроса и количества колонок в таблице. естественно, никаких промежуточных csv, сразу в рабочее окружение в R. то есть, сутки ждать, чтобы выгрузить пару гб - это явно неправильно. узких мест может быть много. RODBC вроде не очень быстрый сам по себе, лучше odbc или спец.пакеты типа RPostgreSQL). также проблемы могут быть в запросе и в архитетуре базы данных - если фильтрация не по полям индексов, то это правда может быть медленно. плюс сами настройки бд могут играть. например, если это боевая база, в которую параллельно происходит вставка-удаление-изменение данных, пусть даже в другие таблицы, то это тоже может влиять на производительность. и так далее.
Обсуждают сегодня