кластер, а не только на одну машинку из кластера?
А он для этого подходит? На кластер КХ уже идёт. Задача то какая? Насколько я понимаю, arrow, в первую очередь, interops. Общий источник в виде файлов и персональные вычислители. Дальше не погружался, потому что arrow для локальных задач используем. А все кластеры на КХ.
Задачи пока нет, наперед фантазирую. Скажем, у какого то заказчика будет намного больше данных, чем у других, например, 150 гб данных со счетчиков поминутного потребления разных газов в какую нибудь камеру для хрен знает чего. Не уверен, что такое бывает в реальности, но например. И каждая колонка удобно считается ядром, но таких колонок сотни, то есть кластер будет в самый раз
бывает и еще как. это КХ. arrow вообще не про это.
Мне стала интересна суть предложения. Поларс - это же пакет для работы с таблицами как data.table/pandas? Вы этот пакет хотите расшарить на n-тачек?
Экзотика какая-то, для таких манипуляций придуманы БД, особенно озвученный КХ
ClickHouse
ну вот мы и вернулись на проверенный стек для немного больших аналитических задачек. CH + arrow + R.
Так а ну... многие вещи нельзя сделать одной кверёй
Мы тут случаем не сломали стройную картину аналитического мира? Спорим и подбрасываем…
И не надо! Грубый процессинг в КХ, тонкий — в R. Оно работает так замечательно!
Вот, а я хочу грубый процессинг в той бд, которая на производстве уже 10 лет, а весь остальной - в polars
Если бд тянет - ок
Я вот только не согласен, что много сложных и изысканных операций с 150 гб это экзотика - кто то ж трансформеры делает
И что?) БД эффективно хранит данные, включает в себя подкапотные функции для работы с огромными объемами (ту же среднюю по данным на разных машинах просто так не посчитать, когда в CLH под капотом это уже вшито вроде) и т.п. Питоны-Р существуют делать то, что БД как раз не может - работать с кучей разнотипных источников типа csv-файлов/экселей/агрегатов из других БД, иллюстрировать, заниматься сложной математикой и т.д. С обучением конечно гемморой, но: 1) CLH вроде уже имеет в себе некоторый функционал для обучения 2) Всегда можно применять магию статистики - брать выборки и экстраполировать и т.п.
Эх, все, как один, говорят мне это, неужели я не прав?!)
Вот вам не фантазийная задача, а реальная: категоризовать 60 тысяч статей на "относятся к компании хорошо", "относятся к компании плохо", "относятся к компании нейтрально" и "не упоминают о компании достаточно"
Интересный кейс Я бы лично попробовал обучать не на всех 60к статей, а на емком сэмпле. Вот статейка с калькулятором: https://www.qualtrics.com/experience-management/research/determine-sample-size/ Для 60к контрактов хватит 382 экземпляров в сэмпл. Обучил - посмотрел, на сколько адекватные результаты и т.п. Эти 382 рандомных экземпляра, по идее, должны подхватить достаточное кол-во закономерностей под ваше обучение. Такой подход не подойдет для обучения какого-нибудь переводчика с традиционного китайского на сычуаньский, конечно (для такого проекта сэмплы уже не подойдут, да). Но тут задача вроде не такого уровня тяжелого. Местные гуру ML-ля меня поправят :)
Рациональный подход
Тут все не так просто. Зависит от пару вещей. Данные i.i.d или нет. Скорее всего нет, значит надо как то сэмплить умно. Во вторых какой минимальный эффект хотите найти. Для этого есть вещи типо Берри-Эссен. В третем насколько не линейная модель, супер не линейная, то на маленькой выборке будет большой разброс.
ну да.. с умом. но есть ли в этой задаче хоть капля смысла — надо это сначала уточнить. работало как-то раньше ОТК, материальные объекты проверяли. и ничего, статистика помогала... и 25 Гб — это вообще ни о чем. часы наручные.
Статистика то помогает, но очень часто эффекты которые хотим получить очень шумные. Вот и берём весь популейтон
задачу сначала надо смотреть. а не гигабайтами меряться P.S. Это собирательный образ. 80% активностей вызывают именно эту ассоциацию.
Обсуждают сегодня