169 похожих чатов

К теме о биг дата. Товарищи, как аналитику данных преодолеть

барьер и перейти на большие данные? Интересует больше дата инжиниринг. Есть задача организовать дата лейк, витрину, делать по данным базовые операции. Пока без машинного обучения. Как бы так чтобы не больно 🙈

3 ответов

8 просмотров

Всё очень зависит от вводных и от текущего состояния вашей аналитической архитектуры. Если с нуля, в смысле не на текущей работе собираетесь что-то делать, то почитайте книжку "Потоковая обработка данных". Даст общее представление какой путь проделывают данные. Также почитайте про лямбда-архитектуру и вот это всё. Ну и хотя бы про нормализацию данных, релиционки. Дата инженер больше программист, нежели аналитик, на мой дилетантский взгляд. Считается, что важный язык для ди - Scala (потому что Spark и Databricks). В принципе не важно, кмк, на чём писать (scala/python/r). Можно на любом. Но вот штуки для оркестрации и шедулирвоания (Airflow, Prefect, Dagster) написаны на питоне и таски для них надо писать на питоне. Важен SQL. Это язык трансформации данных. Без этого никуда. К вашей теме возвращаясь. Если данные уже лежат в БД и над ними просто надо поколдовать (ELT, а не ETL проесс), присмотритесь к инструменту DBT. Я его начал у нас использовать, уже 4 больших отчёта в PBI завязаны на витрины, которые созданы этим инструментом, все очень довольны. Если просто - это создание пайплайнов трансформации данных. Причём всё сохранёнными sql скриптами. В комплекте логирование, документирование и куча всяких очень полезных вещей. Очень рекомендую))

Сугубо личное мнение, но вы не с той стороны запрягаете. Биг дата - довольно расплывчатое понятие, никто толком не знает, с какого момента данные становятся биг. Вопрос в том, какие данные у вас есть сейчас и какие задачи вам надо решать... И почему их не получается решить с имеющимися инструментами

Похожие вопросы

Обсуждают сегодня

type TObj = object procedure Init; virtual; end; TObj1 = object(TObj) procedure Init; override; end; procedure TObj1.Init; begin inherited; end; procedur...
Alexander 👋
29
Есть какой-нибудь для Delphi/FPC T*Compression(Decompression)Stream на базе LZ4/Zstd/любой другой быстрый(и хорошо сжимающий) алгоритм А ещё лучше в pure pascal А ещё лучше од...
notme
45
А чем вам питонисты не угодили?😂
.
79
Можно ли загрузить скрипт py в бота чтобы он работал по нему? как это сделать?
huskadam #RCC Фанат? @hitlerpvp
13
Всем здравствуйте! Я хотел узнать сколько стоит средняя месячная зарплата у Electron js разработчиков? Мне очень это важно и нужно, плиз помогите узнать эту инфу! Для Джунио...
U.K.
10
А дин типизация это хорошо или плохо?
Alexey
12
Исходники плюс документация? Вы гоните)) демок хватит всем
zamtmn
11
Я хочу задать вопрос на тему "ещё одного" языка для входа на fpc. Ну, чтобы через флаг {$mode} фронт мог воспринимать "немножко другой синтаксис с той же самой семантикой... Э...
Wlad
4
Язык Си можно выучить за день? По книжке ANSI C на 230 страниц
Vincent Vegan
29
Hello. Could you please help me with finding all coordinates within a radius using a spatial index, given that I have a table with coordinates? SET @lng = 37.57925; SET @lat ...
Rinchin G
7
Карта сайта