Всем привет. беглый поиск по чату на тему альтернативы sqoop

Question

Всем привет. беглый поиск по чату на тему альтернативы sqoop

показал, что прямой альтернативы (чтобы прям open source продукт) вроде нет. есть работающие и проверенные собственные наработки на spark, java, scala, python, кто-то даже shell-ом не стесняется пользоваться. посему вопрос, таки нет альтернатив или есть? что думаете относительно nifi?

#hadoop #russian #software

0

09.02.2022

24 ответов

61 просмотр

Бронислав Житников

Dmitry Zuev
1. Скуп говно 2. Nifi старый комбайн, и это оверки...

:nu-da-poshel-ya:

0

09.02.2022

Dmitry Zuev

Бронислав Житников
:nu-da-poshel-ya:

ну у людей явно нет целой толпы людей и надо из реляционок тащить

0

09.02.2022

Бронислав Житников

А что именно хочется от NIFI получить, NIFI может быть хорошим решением но он действительно тяжелый...

0

09.02.2022

Бронислав Житников

Dmitry Zuev
ну у людей явно нет целой толпы людей и надо из ре...

да ну, то что у нас целых 5 человек подпиливают NIFI 'это скорее следствие того что у нас много людей пилящих пайплайны и много разнообразных источников. А для небольших компаний хватить 1 человека не сильно больших ресурсов техники. Ну для реляционка - реляционка наверное можно придумать варианты получше... здесь я не спорю

0

09.02.2022

Stanislav Lysikov

Бронислав Житников
да ну, то что у нас целых 5 человек подпиливают N...

а вот даже интересно было бы устроить опрос, сколько людей в средней де команде а то сначала разговоры идут о том, что нет 5 человек а потом оказывается, что количество де исчисляется десятками )

0

09.02.2022

Dmitry Zuev

Stanislav Lysikov
а вот даже интересно было бы устроить опрос, сколь...

потом выясняется что команд по 5 человек 10

0

09.02.2022

Сиплый

мы когда делали выгрузки из датабаз, скууп хуже со странными типами работал (например, таймстемпы в лонги превращались) + еще пара проблем. спарком еще можно было прокидывать что-то, вроде select *, <хрень-экспр1>, <хрень-экспр2>.. в итоге сделали на спарке, выгружали > 500 таблиц в день, загружали merge-ом в delta lake

0

09.02.2022

iKaleeninskii

Скуп неживой Для спарка надо код писать NiFi в проде не пробовал Всё неудобно( Поэтому советую погонять Nifi, там хотя бы мышкой прямоугольники перетаскивать нужно

0

09.02.2022

Сиплый

iKaleeninskii
Скуп неживой Для спарка надо код писать NiFi в про...

код написать - 1 раз. потом просто ямл докинуть. или 500 ямлов, по 1 на табличку

0

09.02.2022

iKaleeninskii

Сиплый
код написать - 1 раз. потом просто ямл докинуть. и...

это если все знают, что делать. А если нет, то написать пять раз, переписать шашнадцать, ямлы инвалидировать и переделывать каждый день(

0

09.02.2022

Munir Автор вопроса

в контексте вопроса интересует мнение окружающих на тулзы загрузки данных из разных источников в хранилище. найфай упомянут только за то, что имеет кучу коннекторов, что имеет историчность,, что встроено логирование и можно скрыть креды, что может графически отобразить схему загрузки. т.е. никакой другой обработки, кроме взять и положить. но очень интересно, также и почему точно нет. "сильно перегружен" аргумент конечно, но вдруг еще есть что-то конкретное? ну и да. вопрос был, какие есть еще решения....

0

09.02.2022

Бронислав Житников

Munir
в контексте вопроса интересует мнение окружающих н...

можно сделать кстати свою сборочку которая будет меньше нагружена и еще использовать для обработки на проде minify вместо nifi. Но если цель батчевые выгрузки с десятками гигабайт на выгрузку то наверное лучше не NIFI... (хотя батч на 100 ГБ можно же наверняка порезать на микробатчи :) )

0

09.02.2022

Станислав

Из opensource похожий функционал имеют продукты talend. Но зачем вообще его менять? Это бессмертная и простая утилита, например как DistCp. Она используется например в Informatica BDE, ODI вроде тоже, думаю и в talend тоже. Короче это АК в мире BigData)) для batch RDBMS -> hdfs.

0

09.02.2022

Alex Leshkov

Только он помер

0

09.02.2022

Nikita B

Alex Leshkov
Только он помер

Ну не значит же что не работает в текущем варианте

0

09.02.2022

Станислав

Nikita B
Ну не значит же что не работает в текущем варианте

думаю будет ещё долго работать.

0

09.02.2022

Станислав

Alex Leshkov
Только он помер

убили скорее)

0

09.02.2022

Alex Leshkov

Nikita B
Ну не значит же что не работает в текущем варианте

Это значит, что может в любой момент перестать работать. Т.е. имеет смысл искать замену и тем более не делать новое внедрение

0

09.02.2022

Сиплый

Alex Leshkov
Это значит, что может в любой момент перестать раб...

➕

0

09.02.2022

Anton Zadorozhniy

Станислав
Из opensource похожий функционал имеют продукты ta...

если человека не устраивает Sqoop, то его скорее всего не устроит и DistCp

0

09.02.2022

Сиплый

iKaleeninskii
это если все знают, что делать. А если нет, то нап...

согласен 😞 написать норм даже такую, казалось бы, простую вещь - не 1 вечера дело, даже для знающих. зато масштабировать удобно, т. к. пофиг, 20 там таблиц, или 2000 надо выгружать. с другой стороны, если база - три таблички и три строчки, то это оверкил

0

09.02.2022

Сиплый

ну тут как всегда, срачик образовался 😁

0

09.02.2022

Munir Автор вопроса

Сиплый
ну тут как всегда, срачик образовался 😁

ради этого и вбрасывал :)

0

09.02.2022