нибудь виртуальная среда для обработки данных?
Проще говоря, я сделал прогноз на Р, на данных из Big Query
Для теста использовал эксельку, копию базы данных
Так вот, таблица с историческими данными в биг квери весит 90 гигов
Если подключаться к биг квери, то оперативка не потянет такой размер
У меня вопрос, есть ли возможность чтобы программа использовала мощность виртуальной машины(сервиса, хз), по типу Гугл Колаб для Питона, но чтобы не было ограничений в ресурсах ОП.
Берёте виртуалку с 128 ГБ оперативки и ставите туда Rstudio Server. Подключаетесь из браузера на локальной машине)
Я не много далекий, а не подскажете где про это почитать, как сделать?)
Это я немного пошутил, виртуалка с таким количеством ОЗУ вам в копеечку влетит. А как ставить Rstudio Server написано на сайте Rstudio. Подробная и понятная документация. Я ставил быстро и безболезненно)
спасибо за сервер, почитаю)
Мне вот всегда было интересно, действительно ли в подобных задачах нельзя переложить все на базу данных? Например, задачи типа линейной регрессии методом наименьших квадратов решаются на уровне SQL обычными аналитическими функциями, и для них и 10 терабайт информации переварить не проблема, во всяком случае аналогичный объем оперативки не потребуется.
А у вас размер базы оптимизирован? М.б. много текстовых переменных, которые вообще не нужны для анализа. Или какие-то факторы сохранены в текстовом виде, но их можно в обычные integer или даже byte перекодировать?
1. Если для вычислений надо тащить весь объем, а не свертку, то что-то не так в консерватории. В чем тогда смысл BigQuery или иной БД? 2. Если такие объемы нужны, то надо руками вытаскивать данные и класть их на машину. вытащить 90 Гб по сети -- это сам по себе увлекательный процесс на многие часы. Можно в файлы, можно в БД. 3. Не верю, что нужно именно все и сразу -- надо смотреть на модель. А если надо, то оперативка однозначно нужна. 128 гиг -- ничего фантастического, это нормальная стартовая машинка. 4. Надо тяжелые предвычисления перекладывать на БД. Clickhouse очень хорошо помогает. 5. на локалке файлы надо хранить в оптимальном виде. qs/fst/apache arrow. и делать правильные выборки колонок/партиций
Да, наверное на стороне биг квери надо делать вычисления Открыть код пакета в Р, и воспроизвести вычисления которые там Правда фит сделать в Биг Квери я ещё хз Возможно Big Query Ml предоставляет такую возможность
Возможно, вы подскажете, можно ли полностью данную функцию реализовать в биг квери? https://rdrr.io/github/sriharitn/foretell/src/R/BG.R
Я бы попробовал следующие варианты 1. Взять выборку из 90 гигов, как посоветовали выше Если не подходит, 2. вытянуть часть данных из 90 гигов, построить модель, затем вытянуть следующую часть выборки и доучить модель (повторить в цикле х раз)
Обсуждают сегодня