показал, что прямой альтернативы (чтобы прям open source продукт) вроде нет. есть работающие и проверенные собственные наработки на spark, java, scala, python, кто-то даже shell-ом не стесняется пользоваться. посему вопрос, таки нет альтернатив или есть? что думаете относительно nifi?
1. Скуп говно 2. Nifi старый комбайн, и это оверкилл 3. Берешь и пишешь исходя из специфики
:nu-da-poshel-ya:
ну у людей явно нет целой толпы людей и надо из реляционок тащить
А что именно хочется от NIFI получить, NIFI может быть хорошим решением но он действительно тяжелый...
да ну, то что у нас целых 5 человек подпиливают NIFI 'это скорее следствие того что у нас много людей пилящих пайплайны и много разнообразных источников. А для небольших компаний хватить 1 человека не сильно больших ресурсов техники. Ну для реляционка - реляционка наверное можно придумать варианты получше... здесь я не спорю
а вот даже интересно было бы устроить опрос, сколько людей в средней де команде а то сначала разговоры идут о том, что нет 5 человек а потом оказывается, что количество де исчисляется десятками )
потом выясняется что команд по 5 человек 10
мы когда делали выгрузки из датабаз, скууп хуже со странными типами работал (например, таймстемпы в лонги превращались) + еще пара проблем. спарком еще можно было прокидывать что-то, вроде select *, <хрень-экспр1>, <хрень-экспр2>.. в итоге сделали на спарке, выгружали > 500 таблиц в день, загружали merge-ом в delta lake
Скуп неживой Для спарка надо код писать NiFi в проде не пробовал Всё неудобно( Поэтому советую погонять Nifi, там хотя бы мышкой прямоугольники перетаскивать нужно
код написать - 1 раз. потом просто ямл докинуть. или 500 ямлов, по 1 на табличку
это если все знают, что делать. А если нет, то написать пять раз, переписать шашнадцать, ямлы инвалидировать и переделывать каждый день(
в контексте вопроса интересует мнение окружающих на тулзы загрузки данных из разных источников в хранилище. найфай упомянут только за то, что имеет кучу коннекторов, что имеет историчность,, что встроено логирование и можно скрыть креды, что может графически отобразить схему загрузки. т.е. никакой другой обработки, кроме взять и положить. но очень интересно, также и почему точно нет. "сильно перегружен" аргумент конечно, но вдруг еще есть что-то конкретное? ну и да. вопрос был, какие есть еще решения....
можно сделать кстати свою сборочку которая будет меньше нагружена и еще использовать для обработки на проде minify вместо nifi. Но если цель батчевые выгрузки с десятками гигабайт на выгрузку то наверное лучше не NIFI... (хотя батч на 100 ГБ можно же наверняка порезать на микробатчи :) )
Из opensource похожий функционал имеют продукты talend. Но зачем вообще его менять? Это бессмертная и простая утилита, например как DistCp. Она используется например в Informatica BDE, ODI вроде тоже, думаю и в talend тоже. Короче это АК в мире BigData)) для batch RDBMS -> hdfs.
Только он помер
Ну не значит же что не работает в текущем варианте
думаю будет ещё долго работать.
убили скорее)
Это значит, что может в любой момент перестать работать. Т.е. имеет смысл искать замену и тем более не делать новое внедрение
если человека не устраивает Sqoop, то его скорее всего не устроит и DistCp
согласен 😞 написать норм даже такую, казалось бы, простую вещь - не 1 вечера дело, даже для знающих. зато масштабировать удобно, т. к. пофиг, 20 там таблиц, или 2000 надо выгружать. с другой стороны, если база - три таблички и три строчки, то это оверкил
ну тут как всегда, срачик образовался 😁
ради этого и вбрасывал :)
Обсуждают сегодня