архитектуре. Нужно читать данные из разных источников (ssh/ftp/локальная файловая система), чистить их и после писать в какое-нибудь хранилище (чаще всего бд). Плюс хотелось бы fail-tolerance, т.е. хотя бы знать, где мы остановились, если вдруг сервер оффнулся или коннекция разорвалась.
Пытаюсь перепиливать легаси (2006-2007 года), там это сделано с записью позиций чтения источников во временные файлы, поэтому все вполне себе устойчиво, но что-то мне подсказывает, что это не самое хорошее решение.
Поможет ли Spark + HDFS, учитывая, что приложение будет крутиться на кластере из одной ноды (т.е. просто на одном сервере)?
Заранее спасибо.
Apache nifi
Одного ответа на это нет. Будет зависеть от сложности процессов. Хадуп точно не нужен в таких масштабах.
Я в таких вопросах не бум-бум, но кафка, много продьюсеров и один конзумер - не подходит?
Обсуждают сегодня