юзают hue, zeppelin для pyspark, читаем файлы из hadoop ну и oozie как планировшик. Не знаю насколько адекватный вопрос, но это норм стек(современный)?
Условно, мой опыт по нему бедет востребован или пора бежать отсюда?
Правда стоит отметить, что я скорее в сторону ds смотрю и de чкорее для получения данных и тп
Ну УЗИ чёт совсем олдскул
для России норм стек, если конечно спарк не 1.6 :)
а если ориентись но европу и us что ботать?
это тип аналог hadoop? Hadoop у них не юзают?
замена hdfs на s3 + сервисы от амазона (EMR, Dynamo и т.д.) там куча сервисов, от замены кафки до своего форка elasticsearch
прям маст хэв получается? Долго переходить? Пора ботать?
Они много пользуются сервисами высокоуровневыми, всякие glue, athena и т д
Только не это
Сейчас в Европе (Берлин), надо ботать английский и AWS. В моей компании стек для Data Lake: - S3 для хранилища Parquet файлов - EMR для постоянных задач de - Hue, Presto для получения данных аналитиками - Python + PySpark для de где небольшие задачи - Scala + Spark где сырых данных побольше и надо считать деньги - Kafka + Java + Spark там где de не хватило и переучивают software engineers чтобы они создавали таблицы для аналитиков
Обсуждают сегодня