area прилетают csv файлы с некоторой периодичностью, примерно 500-1000 в день. Файлы размером 10mb-1gb, внутри IoT - логи с девайсов. Схема примерно одинаковая - device_id/sensor_id/metric_name/event_timestamp. Хочу строить некую реал тайм аналитику - что-нибудь типа окна за последний день по event_timestamp + долгосрочную аналитику - хранить историю и смотреть исторические данные по event_timestamp. Вопрос - как архитектуру лучше построить? Думал насчет кинезиса, но что-то смущает файлы по 100mb+ разбивать и пихать в кинезис
Лямбда архитектура на Спарке?)
Конечно же спарком
Athena или redshift spectrum попробуй
Самый лутший парсер цсв
Мне казалось, эта задача плюс-минус решена? Кафка+Clickhouse Зачем тут Спарк непонятно. Это ж суть метрик, для которых КХ и придумали в Яндексе
1) Чтобы иметь возможность легко делать что-то более сложное, чем SQL 2) В клике с изменения схем будешь гораздо больше отгребать
Можно и в клике сделать без огребания от изменения схем. Писать csv как лог и поверх мат вью и уже во вью его разбирать. Если схема поменялась просто пересоздаем вью и если нужно можно забекфилить данные в основную таблицу.
то есть просто сделать вью, который смотрит на бакет с этими csv? или там как-то в клик прогружать их надо?
Если нужен прям реалтайм то нужно что-то что данные с S3 перекидывает в клик. Из того что я использовал это вот эта штука https://vector.dev/docs/reference/configuration/sources/aws_s3/ но я лично работал не с S3 а с просто с EC2 логи перекидывал в клик.
Обсуждают сегодня