вакансия здесь предполагает написание кастомных пайплайнов для того, чтобы адаптировать данные к процессам компании. и процессы могут быть повязаны как на открытые решения, так на внутренние продукты компаний.. и в свете этого меня не покидает мысль о том, что эту проблему (написания кода там, где он может быть не нужен) можно решить! весь процесс поставки любых данных для аналитики может быть описан декларативно. т.е. иными словами, любые данные можно привести к каким угодно форматам, минимизируя код вплоть до нуля.
т.е. вместо кодирования пайплайнов можно их составлять через определенный интерфейс в браузере.
например, тут упомянут был не так давно pandas с поддержкой CSV.GZ. и у каждого тула есть свои интерфейсы. и к ним можно приводить данные без кода.
скажите, вам это было бы интересно?
беглый поиск по чату показывал, что интерес был..
Тык достаточно много таких утилит. для Google это data fusion и data prep
Обсуждают сегодня