базу данных, возможные решения?
1. Для совсем ленивых в map функцию впихнуть сохранение
2. Если данных мало то collect на драйвер и слить в базу
3. Данных много - мэппратишен, чтобы не оказалось что открытие коннекта на базу заняло больше времени чем само сохранение. Можно и батч тут прикручивать, а можно и не прикручивать, только переиспользьзовать коннект
В случае с mapPartitions мне придётся ведь использовать голый клиент а не спарковскую интеграцию?
Так внутри flatmap вы разве интеграцию используете? Можно пример на псевдокоде как вы это делаете?
Обсуждают сегодня