в файлах, в каждом файле около 10000 строк, файлов порядка 5-10тыс каждый день.
Собираюсь делать масштабируемую систему чтобы можно было развернуть еще 1 проект и файлы делились пополам.
Как я это вижу: пути к файлам будут куда-то закидываться, а приложения постоянно читать их, в какую мне сторону смотреть чтобы серваки не смогли взять один и тот-же файл при одинаковом времени обращения? БД скорее всего не пойдет потому что нужно сначала выбрать, посмотреть, потом обновить, пока это делается, другой инстанс может забрать этот путь до файла
50 миллионов строк в день не так уж и много
Там процесс обработки может долго занимать, при реализации которая сейчас есть занимает около 20 часов (писал не я), по этому хотят чтобы это легко масштабировалось
Вот в сторону кафки тоже думал
Присвойте имен файлам. Первый сервак читает четные, второй - нечетные. Если серваков больше - делайте больше шаг. Что то типа шардинга
Хотелось чтобы сервак брал сам файлы после окончания импорта, а то может произойти такое что один сервак будет простаивать, когда у других еще 20+ файлов
глянь сравнение кафки и кролика,они по разному работают, возможно, тебе рабит лучше подойдет
Обсуждают сегодня