очередном курсе (от SkillFactory) я там в беседе с ментором сказал не могу понять как имплементировать знания в практику — мою практику. И она сказала, что мне нужно посмотреть как настраивать архитектуру СУБД, Data Engineering
Можете посоветовать, пожалуйста?
Конкретно моя проблема: у меня есть табличные данные в csv объемом ~1ГБ о грузоперевозках по железной дороге. Данные структурированы. Но не могу их обработать потому, что Excel не тянет вообще (датасет поделен на файлы по 50 МБ).
Может кто дать практический совет, пожалуйста?
На данный момент есть навыки Python, SQL (отправлять запросы и тд, синтаксис)
а в чём проблема при помощи pandas обработать? тут даже субд для такого не нужна
В том, что пандас не стоит много денег, а другое стоит
до pandas еще не дошел... в алгоритмах и ООП пока углубляюсь))) надо глянуть
просто у вас вопрос был о том, как на практике применить обработку данных вот и советую пандас конечно, можете написать (со знанием алгоритмов и ооп) свой функционал, если есть желание. читать csv, задавать типы, обрабатывать там
писать свое нет ни времени, ни желания)) запрос простой — делать сортировку, фильтр и тд SQL отлично с этим справляется, но как настроить у себя на компе не могу понять
загуглите pandas если уже есть опыт в питоне, знакомство с ним будет на изи и почти 90% ваших запросов на обработку табличных данных можно будет сделать им
плюс его более "низкоуровневый аналог" numpy
понял пора начинать тогда
Обсуждают сегодня