169 похожих чатов

Коллеги, кто то вдруг знает, как развернуть polars на весь

кластер, а не только на одну машинку из кластера?

25 ответов

9 просмотров

А он для этого подходит? На кластер КХ уже идёт. Задача то какая? Насколько я понимаю, arrow, в первую очередь, interops. Общий источник в виде файлов и персональные вычислители. Дальше не погружался, потому что arrow для локальных задач используем. А все кластеры на КХ.

Ілія-Малекі Автор вопроса
Ilya Shutov
А он для этого подходит? На кластер КХ уже идёт. З...

Задачи пока нет, наперед фантазирую. Скажем, у какого то заказчика будет намного больше данных, чем у других, например, 150 гб данных со счетчиков поминутного потребления разных газов в какую нибудь камеру для хрен знает чего. Не уверен, что такое бывает в реальности, но например. И каждая колонка удобно считается ядром, но таких колонок сотни, то есть кластер будет в самый раз

Ілія Малекі
Задачи пока нет, наперед фантазирую. Скажем, у как...

бывает и еще как. это КХ. arrow вообще не про это.

Мне стала интересна суть предложения. Поларс - это же пакет для работы с таблицами как data.table/pandas? Вы этот пакет хотите расшарить на n-тачек?

Ілія Малекі
Ага

Экзотика какая-то, для таких манипуляций придуманы БД, особенно озвученный КХ

Ілія Малекі
Ага

ну вот мы и вернулись на проверенный стек для немного больших аналитических задачек. CH + arrow + R.

Ілія-Малекі Автор вопроса
Bogdan Avramenko
Экзотика какая-то, для таких манипуляций придуманы...

Так а ну... многие вещи нельзя сделать одной кверёй

Vitalijs
КХ?

Мы тут случаем не сломали стройную картину аналитического мира? Спорим и подбрасываем…

Ілія Малекі
Так а ну... многие вещи нельзя сделать одной кверё...

И не надо! Грубый процессинг в КХ, тонкий — в R. Оно работает так замечательно!

Ілія-Малекі Автор вопроса
Ilya Shutov
И не надо! Грубый процессинг в КХ, тонкий — в R. О...

Вот, а я хочу грубый процессинг в той бд, которая на производстве уже 10 лет, а весь остальной - в polars

Ілія-Малекі Автор вопроса
Bogdan Avramenko
Экзотика какая-то, для таких манипуляций придуманы...

Я вот только не согласен, что много сложных и изысканных операций с 150 гб это экзотика - кто то ж трансформеры делает

Ілія Малекі
Так а ну... многие вещи нельзя сделать одной кверё...

И что?) БД эффективно хранит данные, включает в себя подкапотные функции для работы с огромными объемами (ту же среднюю по данным на разных машинах просто так не посчитать, когда в CLH под капотом это уже вшито вроде) и т.п. Питоны-Р существуют делать то, что БД как раз не может - работать с кучей разнотипных источников типа csv-файлов/экселей/агрегатов из других БД, иллюстрировать, заниматься сложной математикой и т.д. С обучением конечно гемморой, но: 1) CLH вроде уже имеет в себе некоторый функционал для обучения 2) Всегда можно применять магию статистики - брать выборки и экстраполировать и т.п.

Ілія-Малекі Автор вопроса
Bogdan Avramenko
И что?) БД эффективно хранит данные, включает в с...

Эх, все, как один, говорят мне это, неужели я не прав?!)

Ілія-Малекі Автор вопроса
Bogdan Avramenko
И что?) БД эффективно хранит данные, включает в с...

Вот вам не фантазийная задача, а реальная: категоризовать 60 тысяч статей на "относятся к компании хорошо", "относятся к компании плохо", "относятся к компании нейтрально" и "не упоминают о компании достаточно"

Ілія Малекі
Вот вам не фантазийная задача, а реальная: категор...

Интересный кейс Я бы лично попробовал обучать не на всех 60к статей, а на емком сэмпле. Вот статейка с калькулятором: https://www.qualtrics.com/experience-management/research/determine-sample-size/ Для 60к контрактов хватит 382 экземпляров в сэмпл. Обучил - посмотрел, на сколько адекватные результаты и т.п. Эти 382 рандомных экземпляра, по идее, должны подхватить достаточное кол-во закономерностей под ваше обучение. Такой подход не подойдет для обучения какого-нибудь переводчика с традиционного китайского на сычуаньский, конечно (для такого проекта сэмплы уже не подойдут, да). Но тут задача вроде не такого уровня тяжелого. Местные гуру ML-ля меня поправят :)

Bogdan Avramenko
Интересный кейс Я бы лично попробовал обучать не ...

Тут все не так просто. Зависит от пару вещей. Данные i.i.d или нет. Скорее всего нет, значит надо как то сэмплить умно. Во вторых какой минимальный эффект хотите найти. Для этого есть вещи типо Берри-Эссен. В третем насколько не линейная модель, супер не линейная, то на маленькой выборке будет большой разброс.

Vitalijs
Тут все не так просто. Зависит от пару вещей. Данн...

ну да.. с умом. но есть ли в этой задаче хоть капля смысла — надо это сначала уточнить. работало как-то раньше ОТК, материальные объекты проверяли. и ничего, статистика помогала... и 25 Гб — это вообще ни о чем. часы наручные.

Ilya Shutov
ну да.. с умом. но есть ли в этой задаче хоть капл...

Статистика то помогает, но очень часто эффекты которые хотим получить очень шумные. Вот и берём весь популейтон

Vitalijs
Статистика то помогает, но очень часто эффекты кот...

задачу сначала надо смотреть. а не гигабайтами меряться P.S. Это собирательный образ. 80% активностей вызывают именно эту ассоциацию.

Похожие вопросы

Обсуждают сегодня

Anyone here suffers from unexplained aural migraines, who would be up for talking for a bit? Doesn't *have* to be aural, but I am not asking about headaches, I mean actual mi...
Martin Rys
55
Вопрос по WIN32: Насколько я понимаю то все функции win32 привязаны к объектам операционной системы. Например консоль, файл, кисть, окна итд. Следовательно функции win32 упра...
Tommy Vercetti
6
Hello, can I install macOS and run flutter on a virtual machine? Is it possible to print for iphone?
Mazones
11
кто-то пользуется компонентами rx ? как их лучше ставить, через OPM? (lazarus)
Iluha Companets
15
В смысле более затратная? Общая стоимость владения лошадью меньше, чем автомобиля. В среднем.
Sergej R
10
подскажите пожалуйста, как мне освободить результат записанный в переменную result? в чем проблема подскажите если МОЖЕТЕ?
Михаил Helper
28
есть тут кто-то , кто только начал изучать си? если проходите курс на степике или как-то сами изучаете, пишите, может, скооперируемся?..
Eule
25
я не магистр хаскеля, но разве не может лейзи тип конвертнуться в не-лейзи запросив вычисление содержимого прям при инициализации?
deadgnom32 λ madao
100
Слушайте, ещё такая интересная задачка. Сделан аудит действий пользователей через триггеры в базе, соответственно каждый пользователь имеет свой логин и пароль в базе. Это пре...
Сергей Бычков
12
Скажите, тут нет проблемы? IMyInterface1 = interface function GetInterface2: IInterface2; ... function TMyInterface.GetInterface2: IInterface2; begin Result := TI...
Ruslan aka DUDE
18
Карта сайта