Ребят, всем привет! Подскажите пожалуйста концептаульно про отправку батчами. У меня есть

большой лист json'ов:
list_of_msgs = [{msg1}, {msg2}, {msg3}...{msgN}]


я создаю продюсера (питон, библиотека kafka-python. чем будут читать - не знаю)
producerobj = KafkaProducer()


далее я итерируюсь по листу и отправляю каждое сообщение, делая flush раз в сто сообщений

counter = 0
for msg in list_of_msgs:
producerobj.send(msg)
counter += 1
if counter % 100 = 0:
producerobj.flush()


Так работает очень долго.
Кажется, можно отправлять в кафку батчами, по крайней мере есть такой параметр у продюсера.

Но я не очень понимаю как организовать это, получается просто без цикла положить весь лист в отправку, а кафка под капотом будет отправлять сообщения в зависимости от наполненности и разобъет сообщение на батчи, как я установил в настройках продьюсера?
типа вот так и все:

Вариант 1:
producerobj.send(list_of_msgs)


Но как тогда делать flush раз в сто сообщений?
Или мне нужно самостоятельно написать как итерироваться по списку, и отправлять по сто сообщений, например:

Вариант 2:
for i in range(0, len(list_of_msgs), 100):
producerobj.send(list_of_msgs[i: i+100])
producerobj.flush()


Вопросы:
* Какой вариант лучше 1 или 2
* Верно ли я понимаю, что я могу в send положить список сообщений, а не сообщение, и тогда кафка под капотом будет отправлять этот список по кусочкам, в зависимости от установленного размера батча?

2 ответов

16 просмотров

зависит от клиентской библиотеки, конечно, но как правило вы устанавливаете размеры пакетов батчей, и клиент сам под капотом отправляет батч каждый раз, когда набирает сообщения. за это могут отвечать и flush_interval, и минимальный размер батча, и максимальный размер батча. ответы на вопросы: * чаще всего достаточно 1 варианта, обычно клиентские библиотеки сами за вас будут отправлять батчи. если вы хотите удостовериться, что после пачки сообщений все были точно отправлены - можете дергать вручную. * правильно, с условием, если клиентская библиотека имеет соответствующий функционал.

Vitalik- Автор вопроса
George Bolshakov
зависит от клиентской библиотеки, конечно, но как ...

Спасибо большое! Библиотека kafka-python, в ней у продюсера есть настройки batch_size и linger_ms, я так понимаю, первый параметр отвечает за размер батча, второй за время (что кажется бессмысленно, в моем случае, если отправить в send лист) Попробую вариант 1

Похожие вопросы

Обсуждают сегодня

Читаю сейчас [нет, уже больше не читаю!] курсовую о Булгакове, написанную, похоже, с помощью ChatGPT. Это удивительный психоделический опыт. Текст в основном написан в стиле б...
✨ Uni [🌊 В отпуске]
1
40 тысяч в час / 3600 = 11,11 в секунду... Вам точно нужна очередь? (я просто не знаю "контекста") Такое количество запросов любое приложение замечательно "прожует" и не попер...
Igor Mitin
5
Всем салют, заинтересовался odoo, хотел бы поинтересоваться на счёт этой ERP , прогеры которые работают над проектами вы используете odoo как серверную платформу работая с RES...
⚔️
8
вопрос: кто как решает вопрос с динамической подгрузкой скриптов для отдельных страниц с включенным turbo router?
Sergei Toroptsev
25
А как асинхрон иначе реализован? Пардон:)
Ivan K 🏄🏻‍♂️
7
Сonst magicTgHTML = (text, entities) => { let processedText = text; let offsetShift = 0; entities.forEach(entity => { const { offset, length, type, url, ...
Андрей
1
Почему Telegram пишет, что объект media не найден, хотя на самом деле я его передаю? Делаю на urllib, без зависимостей, так надо. Вызываю метод sendMediaGroup с таким JSON: ...
Alexey S
1
Друзья, за кем?
Magic
12
Это что теперь, любой бот сможет принимать платежи без ебли с юр лицами?
Lencore
8
коллеги привет. уже второй день бьемся об заклад с одной ошибкой, может вы сталкивались с таки странным поведением? есть тестовый сервер, на который паблишим релизную версию W...
Magzhan
11
Карта сайта