Об том же подумал. Ну и спросил заодно на всякий.
У аналитиков на питоне своя логика)
Я, к сожалению, не могу воспринимать словосочетание "аналитик на питоне" без улыбки
Сегодня общался с квантом из Чикаго, который 3 месяца переписывал структуру данных в коде, т.к. в пандасе данные по фьючерсам не пролезали по памяти.
Данные по фьючерсам относятся к финансам?
Интересно с каким объёмом он работает. Я лично работая с целой биржей по всем парам (около 1000) с 30 параметрами по каждой никаких проблем с памятью не испытывал, не испытываю и врятли буду испытывать . Может он что то не договаривает?
Вообще фьючерсы это большой сегмент рынка финансовых дериватив, там можно, если есть возможность, очень прилично накопать. В 2020 было там что-то типа более чем 25 трлн сделок по фьючерсам по всему миру, там есть откуда таким проблем браться
Соглашусь, только вопрос в том, откуда взять все логи совершенных сделок со всех бирж за всю историю. В целом, это крайне ценные данные. Тут я полностью признаю что никакой там пандас просто не силён. Я даже не знаю, тут мне кажется датацентр нужен что ли
Если данных больше 10ГБ, то проще всего запилить базу на BigQuery и дергать ее аром или сиквелом. По уму надо бы хадуп или подобное заводить.
Локальный кликхаус ест это все и не морщится. А размеры 10 гб даже не заметны. И вот ещё подход, не нужны никакие датацентры для таких копеек https://habr.com/ru/post/597943/
И ни в коем случае всякие кладбища данных в виде хадупа
Duckdb вроде не тянет больших объемов
Что есть большой объём? Сейчас простейшая рабочая станция может иметь 64-128 гиг оперативки за копейки. О чем речь идёт? А arrow может весь локальный ssd использовать
Не я его назвал. А чем может быть хороша файловая помойка для быстрой и сложной аналитики?
Ну это вы его называете файловой помойкой, а другие говорят, что это современное хранилище для больших объемов данных с возможностью быстрого доступа и обработки. Кому верить?
Это дорогое удовольствие на свои деле. И его чаще используют в качестве холодного хранилища для данных
Никому. Обратите внимание на специфику технологии, характерные объемы и времена доступа. Поработайте с ним и составьте собственное мнение.
Начните использовать кликхаус для olap. И будет Вам счастье
Я для больших объемов использую bigquery. Вполне счастлив, но он платный. Можно сдуру написать запрос на пару тысяч долларов.
Я тоже не занимаюсь биг датой, просто у компании очень много данных.
У каждого своё понимание счастья.
Сколько в граммах?
Ну, больше ста гигов точно. Мне из этого не нужно 99.99%
Бигквери вам не нравится?
Больше не значит равно )
Да хоть несколько терабайт — ерунда
У меня с 50гб возникли проблемы, база лежала на ssd
Обсуждают сегодня