Коллеги, кто то вдруг знает, как развернуть polars на весь

Question

R (язык программирования)

Ілія Малекі

Коллеги, кто то вдруг знает, как развернуть polars на весь

кластер, а не только на одну машинку из кластера?

#programming #r #russian

0

22.04.2022

25 ответов

26 просмотров

Ілія Малекі Автор вопроса

Ilya Shutov
А он для этого подходит? На кластер КХ уже идёт. З...

Задачи пока нет, наперед фантазирую. Скажем, у какого то заказчика будет намного больше данных, чем у других, например, 150 гб данных со счетчиков поминутного потребления разных газов в какую нибудь камеру для хрен знает чего. Не уверен, что такое бывает в реальности, но например. И каждая колонка удобно считается ядром, но таких колонок сотни, то есть кластер будет в самый раз

0

22.04.2022

Ilya Shutov

Ілія Малекі
Задачи пока нет, наперед фантазирую. Скажем, у как...

бывает и еще как. это КХ. arrow вообще не про это.

0

22.04.2022

Bogdan Avramenko

Мне стала интересна суть предложения. Поларс - это же пакет для работы с таблицами как data.table/pandas? Вы этот пакет хотите расшарить на n-тачек?

0

22.04.2022

Ілія Малекі Автор вопроса

Bogdan Avramenko
Мне стала интересна суть предложения. Поларс - это...

Ага

0

22.04.2022

Bogdan Avramenko

Ілія Малекі
Ага

Экзотика какая-то, для таких манипуляций придуманы БД, особенно озвученный КХ

0

22.04.2022

Vitalijs

Bogdan Avramenko
Экзотика какая-то, для таких манипуляций придуманы...

КХ?

0

22.04.2022

Bogdan Avramenko

Vitalijs
КХ?

ClickHouse

0

22.04.2022

Ilya Shutov

Ілія Малекі
Ага

ну вот мы и вернулись на проверенный стек для немного больших аналитических задачек. CH + arrow + R.

0

22.04.2022

Ілія Малекі Автор вопроса

Bogdan Avramenko
Экзотика какая-то, для таких манипуляций придуманы...

Так а ну... многие вещи нельзя сделать одной кверёй

0

22.04.2022

Ilya Shutov

Vitalijs
КХ?

Мы тут случаем не сломали стройную картину аналитического мира? Спорим и подбрасываем…

0

22.04.2022

Дмитрий Володин

Ілія Малекі
Так а ну... многие вещи нельзя сделать одной кверё...

Очень спорно)))

0

22.04.2022

Ilya Shutov

Ілія Малекі
Так а ну... многие вещи нельзя сделать одной кверё...

И не надо! Грубый процессинг в КХ, тонкий — в R. Оно работает так замечательно!

0

22.04.2022

Ілія Малекі Автор вопроса

Ilya Shutov
И не надо! Грубый процессинг в КХ, тонкий — в R. О...

Вот, а я хочу грубый процессинг в той бд, которая на производстве уже 10 лет, а весь остальной - в polars

0

22.04.2022

Ilya Shutov

Ілія Малекі
Вот, а я хочу грубый процессинг в той бд, которая ...

Если бд тянет - ок

0

22.04.2022

Ілія Малекі Автор вопроса

Bogdan Avramenko
Экзотика какая-то, для таких манипуляций придуманы...

Я вот только не согласен, что много сложных и изысканных операций с 150 гб это экзотика - кто то ж трансформеры делает

0

22.04.2022

Bogdan Avramenko

Ілія Малекі
Так а ну... многие вещи нельзя сделать одной кверё...

И что?) БД эффективно хранит данные, включает в себя подкапотные функции для работы с огромными объемами (ту же среднюю по данным на разных машинах просто так не посчитать, когда в CLH под капотом это уже вшито вроде) и т.п. Питоны-Р существуют делать то, что БД как раз не может - работать с кучей разнотипных источников типа csv-файлов/экселей/агрегатов из других БД, иллюстрировать, заниматься сложной математикой и т.д. С обучением конечно гемморой, но: 1) CLH вроде уже имеет в себе некоторый функционал для обучения 2) Всегда можно применять магию статистики - брать выборки и экстраполировать и т.п.

0

22.04.2022

Ілія Малекі Автор вопроса

Bogdan Avramenko
И что?) БД эффективно хранит данные, включает в с...

Эх, все, как один, говорят мне это, неужели я не прав?!)

0

22.04.2022

Ілія Малекі Автор вопроса

Bogdan Avramenko
И что?) БД эффективно хранит данные, включает в с...

Вот вам не фантазийная задача, а реальная: категоризовать 60 тысяч статей на "относятся к компании хорошо", "относятся к компании плохо", "относятся к компании нейтрально" и "не упоминают о компании достаточно"

0

22.04.2022

Bogdan Avramenko

Ілія Малекі
Вот вам не фантазийная задача, а реальная: категор...

Интересный кейс Я бы лично попробовал обучать не на всех 60к статей, а на емком сэмпле. Вот статейка с калькулятором: https://www.qualtrics.com/experience-management/research/determine-sample-size/ Для 60к контрактов хватит 382 экземпляров в сэмпл. Обучил - посмотрел, на сколько адекватные результаты и т.п. Эти 382 рандомных экземпляра, по идее, должны подхватить достаточное кол-во закономерностей под ваше обучение. Такой подход не подойдет для обучения какого-нибудь переводчика с традиционного китайского на сычуаньский, конечно (для такого проекта сэмплы уже не подойдут, да). Но тут задача вроде не такого уровня тяжелого. Местные гуру ML-ля меня поправят :)

0

22.04.2022

Юрий

Bogdan Avramenko
Интересный кейс Я бы лично попробовал обучать не ...

Рациональный подход

0

23.04.2022

Vitalijs

Bogdan Avramenko
Интересный кейс Я бы лично попробовал обучать не ...

Тут все не так просто. Зависит от пару вещей. Данные i.i.d или нет. Скорее всего нет, значит надо как то сэмплить умно. Во вторых какой минимальный эффект хотите найти. Для этого есть вещи типо Берри-Эссен. В третем насколько не линейная модель, супер не линейная, то на маленькой выборке будет большой разброс.

0

23.04.2022

Ilya Shutov

Vitalijs
Тут все не так просто. Зависит от пару вещей. Данн...

ну да.. с умом. но есть ли в этой задаче хоть капля смысла — надо это сначала уточнить. работало как-то раньше ОТК, материальные объекты проверяли. и ничего, статистика помогала... и 25 Гб — это вообще ни о чем. часы наручные.

0

23.04.2022

Vitalijs

Ilya Shutov
ну да.. с умом. но есть ли в этой задаче хоть капл...

Статистика то помогает, но очень часто эффекты которые хотим получить очень шумные. Вот и берём весь популейтон

0

23.04.2022

Ilya Shutov

Vitalijs
Статистика то помогает, но очень часто эффекты кот...

задачу сначала надо смотреть. а не гигабайтами меряться P.S. Это собирательный образ. 80% активностей вызывают именно эту ассоциацию.

0

23.04.2022

Ilya Shutov · Accepted Answer

А он для этого подходит? На кластер КХ уже идёт. Задача то какая? Насколько я понимаю, arrow, в первую очередь, interops. Общий источник в виде файлов и персональные вычислители. Дальше не погружался, потому что arrow для локальных задач используем. А все кластеры на КХ.

169 похожих чатов

Коллеги, кто то вдруг знает, как развернуть polars на весь

25 ответов

Похожие вопросы