который сыпятся тысячи и миллионы XML файлов. Размер файлов небольшой, но количество большое. Нужно их распарсить и сложить в Монгу и/или ElasticSearch. Делаться это должно как можно ближе к real-time
Вопрос: какой сервис/сервисы для этого больше подойдет? Data Pipeline? EMR? Sparks?
Лямбды пробовали - не справляются и начинают тротлиться.
Что мешает XML лить напрямую в logstash?
Обсуждают сегодня