Привет. У меня вопрос. А есть ли для Р какая

Question

Привет. У меня вопрос. А есть ли для Р какая

нибудь виртуальная среда для обработки данных?

Проще говоря, я сделал прогноз на Р, на данных из Big Query

Для теста использовал эксельку, копию базы данных

Так вот, таблица с историческими данными в биг квери весит 90 гигов

Если подключаться к биг квери, то оперативка не потянет такой размер

У меня вопрос, есть ли возможность чтобы программа использовала мощность виртуальной машины(сервиса, хз), по типу Гугл Колаб для Питона, но чтобы не было ограничений в ресурсах ОП.

#programming #r #russian

0

28.04.2021

10 ответов

17 просмотров

helby Автор вопроса

Дмитрий Володин
Берёте виртуалку с 128 ГБ оперативки и ставите туд...

Я не много далекий, а не подскажете где про это почитать, как сделать?)

0

28.04.2021

Дмитрий Володин

helby
Я не много далекий, а не подскажете где про это по...

Это я немного пошутил, виртуалка с таким количеством ОЗУ вам в копеечку влетит. А как ставить Rstudio Server написано на сайте Rstudio. Подробная и понятная документация. Я ставил быстро и безболезненно)

0

28.04.2021

helby Автор вопроса

Дмитрий Володин
Это я немного пошутил, виртуалка с таким количеств...

спасибо за сервер, почитаю)

0

28.04.2021

Илья Ерошенков

Мне вот всегда было интересно, действительно ли в подобных задачах нельзя переложить все на базу данных? Например, задачи типа линейной регрессии методом наименьших квадратов решаются на уровне SQL обычными аналитическими функциями, и для них и 10 терабайт информации переварить не проблема, во всяком случае аналогичный объем оперативки не потребуется.

0

28.04.2021

Ed P

А у вас размер базы оптимизирован? М.б. много текстовых переменных, которые вообще не нужны для анализа. Или какие-то факторы сохранены в текстовом виде, но их можно в обычные integer или даже byte перекодировать?

0

28.04.2021

Ilya Shutov

1. Если для вычислений надо тащить весь объем, а не свертку, то что-то не так в консерватории. В чем тогда смысл BigQuery или иной БД? 2. Если такие объемы нужны, то надо руками вытаскивать данные и класть их на машину. вытащить 90 Гб по сети -- это сам по себе увлекательный процесс на многие часы. Можно в файлы, можно в БД. 3. Не верю, что нужно именно все и сразу -- надо смотреть на модель. А если надо, то оперативка однозначно нужна. 128 гиг -- ничего фантастического, это нормальная стартовая машинка. 4. Надо тяжелые предвычисления перекладывать на БД. Clickhouse очень хорошо помогает. 5. на локалке файлы надо хранить в оптимальном виде. qs/fst/apache arrow. и делать правильные выборки колонок/партиций

0

28.04.2021

helby Автор вопроса

Ilya Shutov
1. Если для вычислений надо тащить весь объем, а н...

Да, наверное на стороне биг квери надо делать вычисления Открыть код пакета в Р, и воспроизвести вычисления которые там Правда фит сделать в Биг Квери я ещё хз Возможно Big Query Ml предоставляет такую возможность

0

29.04.2021

helby Автор вопроса

Ilya Shutov
1. Если для вычислений надо тащить весь объем, а н...

Возможно, вы подскажете, можно ли полностью данную функцию реализовать в биг квери? https://rdrr.io/github/sriharitn/foretell/src/R/BG.R

0

29.04.2021

Михаил Ad.fesha

Я бы попробовал следующие варианты 1. Взять выборку из 90 гигов, как посоветовали выше Если не подходит, 2. вытянуть часть данных из 90 гигов, построить модель, затем вытянуть следующую часть выборки и доучить модель (повторить в цикле х раз)

0

29.04.2021

Дмитрий Володин · Accepted Answer

Дмитрий Володин

Берёте виртуалку с 128 ГБ оперативки и ставите туда Rstudio Server. Подключаетесь из браузера на локальной машине)

0

28.04.2021

169 похожих чатов

Привет. У меня вопрос. А есть ли для Р какая

10 ответов

Похожие вопросы