169 похожих чатов

Коллеги, кто то вдруг знает, как развернуть polars на весь

кластер, а не только на одну машинку из кластера?

25 ответов

26 просмотров

А он для этого подходит? На кластер КХ уже идёт. Задача то какая? Насколько я понимаю, arrow, в первую очередь, interops. Общий источник в виде файлов и персональные вычислители. Дальше не погружался, потому что arrow для локальных задач используем. А все кластеры на КХ.

Ілія-Малекі Автор вопроса
Ilya Shutov
А он для этого подходит? На кластер КХ уже идёт. З...

Задачи пока нет, наперед фантазирую. Скажем, у какого то заказчика будет намного больше данных, чем у других, например, 150 гб данных со счетчиков поминутного потребления разных газов в какую нибудь камеру для хрен знает чего. Не уверен, что такое бывает в реальности, но например. И каждая колонка удобно считается ядром, но таких колонок сотни, то есть кластер будет в самый раз

Ілія Малекі
Задачи пока нет, наперед фантазирую. Скажем, у как...

бывает и еще как. это КХ. arrow вообще не про это.

Мне стала интересна суть предложения. Поларс - это же пакет для работы с таблицами как data.table/pandas? Вы этот пакет хотите расшарить на n-тачек?

Ілія Малекі
Ага

Экзотика какая-то, для таких манипуляций придуманы БД, особенно озвученный КХ

Ілія Малекі
Ага

ну вот мы и вернулись на проверенный стек для немного больших аналитических задачек. CH + arrow + R.

Ілія-Малекі Автор вопроса
Bogdan Avramenko
Экзотика какая-то, для таких манипуляций придуманы...

Так а ну... многие вещи нельзя сделать одной кверёй

Vitalijs
КХ?

Мы тут случаем не сломали стройную картину аналитического мира? Спорим и подбрасываем…

Ілія Малекі
Так а ну... многие вещи нельзя сделать одной кверё...

И не надо! Грубый процессинг в КХ, тонкий — в R. Оно работает так замечательно!

Ілія-Малекі Автор вопроса
Ilya Shutov
И не надо! Грубый процессинг в КХ, тонкий — в R. О...

Вот, а я хочу грубый процессинг в той бд, которая на производстве уже 10 лет, а весь остальной - в polars

Ілія-Малекі Автор вопроса
Bogdan Avramenko
Экзотика какая-то, для таких манипуляций придуманы...

Я вот только не согласен, что много сложных и изысканных операций с 150 гб это экзотика - кто то ж трансформеры делает

Ілія Малекі
Так а ну... многие вещи нельзя сделать одной кверё...

И что?) БД эффективно хранит данные, включает в себя подкапотные функции для работы с огромными объемами (ту же среднюю по данным на разных машинах просто так не посчитать, когда в CLH под капотом это уже вшито вроде) и т.п. Питоны-Р существуют делать то, что БД как раз не может - работать с кучей разнотипных источников типа csv-файлов/экселей/агрегатов из других БД, иллюстрировать, заниматься сложной математикой и т.д. С обучением конечно гемморой, но: 1) CLH вроде уже имеет в себе некоторый функционал для обучения 2) Всегда можно применять магию статистики - брать выборки и экстраполировать и т.п.

Ілія-Малекі Автор вопроса
Bogdan Avramenko
И что?) БД эффективно хранит данные, включает в с...

Эх, все, как один, говорят мне это, неужели я не прав?!)

Ілія-Малекі Автор вопроса
Bogdan Avramenko
И что?) БД эффективно хранит данные, включает в с...

Вот вам не фантазийная задача, а реальная: категоризовать 60 тысяч статей на "относятся к компании хорошо", "относятся к компании плохо", "относятся к компании нейтрально" и "не упоминают о компании достаточно"

Ілія Малекі
Вот вам не фантазийная задача, а реальная: категор...

Интересный кейс Я бы лично попробовал обучать не на всех 60к статей, а на емком сэмпле. Вот статейка с калькулятором: https://www.qualtrics.com/experience-management/research/determine-sample-size/ Для 60к контрактов хватит 382 экземпляров в сэмпл. Обучил - посмотрел, на сколько адекватные результаты и т.п. Эти 382 рандомных экземпляра, по идее, должны подхватить достаточное кол-во закономерностей под ваше обучение. Такой подход не подойдет для обучения какого-нибудь переводчика с традиционного китайского на сычуаньский, конечно (для такого проекта сэмплы уже не подойдут, да). Но тут задача вроде не такого уровня тяжелого. Местные гуру ML-ля меня поправят :)

Bogdan Avramenko
Интересный кейс Я бы лично попробовал обучать не ...

Тут все не так просто. Зависит от пару вещей. Данные i.i.d или нет. Скорее всего нет, значит надо как то сэмплить умно. Во вторых какой минимальный эффект хотите найти. Для этого есть вещи типо Берри-Эссен. В третем насколько не линейная модель, супер не линейная, то на маленькой выборке будет большой разброс.

Vitalijs
Тут все не так просто. Зависит от пару вещей. Данн...

ну да.. с умом. но есть ли в этой задаче хоть капля смысла — надо это сначала уточнить. работало как-то раньше ОТК, материальные объекты проверяли. и ничего, статистика помогала... и 25 Гб — это вообще ни о чем. часы наручные.

Ilya Shutov
ну да.. с умом. но есть ли в этой задаче хоть капл...

Статистика то помогает, но очень часто эффекты которые хотим получить очень шумные. Вот и берём весь популейтон

Vitalijs
Статистика то помогает, но очень часто эффекты кот...

задачу сначала надо смотреть. а не гигабайтами меряться P.S. Это собирательный образ. 80% активностей вызывают именно эту ассоциацию.

Похожие вопросы

Обсуждают сегодня

Господа, а что сейчас вообще с рынком труда на делфи происходит? Какова ситуация?
Rꙮman Yankꙮvsky
29
А вообще, что может смущать в самой Julia - бы сказал, что нет единого стандартного подхода по многим моментам, поэтому многое выглядит как "хаки" и произвол. Короче говоря, с...
Viktor G.
2
30500 за редактор? )
Владимир
47
а через ESC-код ?
Alexey Kulakov
29
Чёт не понял, я ж правильной функцией воспользовался чтобы вывести отладочную информацию? но что-то она не ловится
notme
18
У меня есть функция где происходит это: write_bit(buffer, 1); write_bit(buffer, 0); write_bit(buffer, 1); write_bit(buffer, 1); write_bit(buffer, 1); w...
~
14
Добрый день! Скажите пожалуйста, а какие программы вы бы рекомендовали написать для того, чтобы научиться управлять памятью? Можно написать динамический массив, можно связный ...
Филипп
7
Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
Ребят в СИ можно реализовать ООП?
Николай
33
https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_h_common.erl#L174 https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_olp.erl#L76 15 лет назад...
Maksim Lapshin
20
Карта сайта