собираюсь изучать эту тему
https://stepik.org/course/150/syllabus Сперва теорию изучи. Не факт, что все будет ясно и понятно, но что-то останется. После этого ищешь на ютубе Spark для нубов. Если знаешь python, то ищи PySpark. Можешь этот курс параллельно проходить (https://stepik.org/course/99527/syllabus), без Airflow никуда (тут уже точно python надо изучать, если его не знаешь). Ищи курсы по Sql, оттуда бери задание и пытайся его выполнить с помощью Spark. После этого всего возвращайся на теорию, которую я тебе скинул и скорее всего она уже закрепится, т.к. после практики более-менее ясно станет, что тут происходит. Можно начать ходить на собесы. Желательно, чтобы был опыт в Pandas и SQL, иначе сперва изучаешь их и только потом преступаешь к выше сказанному.
datalearn.ru
Что то у них сает лёг
точно, можешь стартануть с гитхаба https://github.com/Data-Learn/data-engineering и ютюб найди по запросу datalearn
Обсуждают сегодня