он может писать дубли, особенно в старых версиях было много багов
я пишу несколькими потоками в кафка таблицу через insert и семплирование и потом в хдфс. У меня получается записей больше в итоге чем просто count() поверх запроса для инсерт. Я не могу понять на каком этапе дубли появляются
если честно никогда не пробовал писать таким способом
а можете объяснить что такое INSERT + семплирование? INSERT INTO kafka_table SELECT ... FROM .. SAMPLE BY ?
Обсуждают сегодня