даже без контейнера 1000 подключений - это уже близко к пределу, после которого пойдут заметные дополнительные накладные расходы на такое большое число подключений. А у вас докер. Зачем вам столько?
На чем лучше остановится, как считаете?
Нужно пробежаться по 1 миллиону айдишников и отправив запрос на сервер проверить валидный или нет, если да - записать в бд
А вы не хотите это иначе сделать? Пачками по 10к, например
Никто так не делает. Создание подключения - очень дорогая операция.
Буду знать спасибо
Вот смотрю и пытаюсь узнать какой лучший способ реализации моей задачи
Вы её толком не озвучили. Пока звучит так, что надо сделать upsert/merge большого датасета. Это довольно типовая etl задача
Максимум скорости на простых задачах при современных серверах и активной работе в памяти получается где-то на 150 соединениях. С другой стороны, объёмы -- невелики, мне непонятно, зачем вам вообще распараллеливание. Ещё на части порезать -- можно понять. Да и то... Ну, каман, дажэ если это 20 раз в день делать будут. Двадцать раз по минуте кому-то подождать. Только что-то супернагружэнное будет провисать от этой задачи.
миллион idшников за минуту не проверяются Я сделал 10 тысяч айдишников на каждое соединение и всего соединений 100 и вроде удовлетворительно
Да. Минута это слишком долго
Они проверяются за секунду, да.
Какая задача? без xy problem
Нужно просто найти оптимальное решение с работой с постгресом
Это влить миллион на сервер за 1-10 вставок и сделать там всё одним запросом. Вы недооцениваете скорость современного железа явно. Ему просто надо дать большой кусок данных сразу
Предлагаете собрать данные в массив и потом создать соединение и разом отдать всю информацию?
Вообще батчами сделать insert into select и в селект проверить эти айдишники, если в один поток, то минут 10 уйдет даже меньше, а лимон подключений будет несколько часов
Проверка айдишников у меня идет не с базы данных, а с удаленного сервера с помощью http запроса
Примерно так, да. Миллион 4-х байтовых идентификаторов это всего лишь 4 мегабайта данных при нормальной бинарной сериализации
Я постараюсь реализовать ту схему, что вы предложили, спасибо большое.
Ну вы творчески подходите к рекомендациям то. Основная идея - батчинг. Накопили N айдишников - сделали одно действие с базой
Да, я понял главную идею и так и собирался
То есть не надо насиловать свой постгрес-сервер тысячами параллельных соединений — надо распараллеливать клиентские эти запросы. Вариантов масса. Я бы посоветовал взять ноду с её продолжэниями/промисами либо гошэчку с горутинами. Но если действительно очень хотите тысячу отдельных процэссов, каждый из которых будет создавать соединение с постгресом— вставьте pgpool хотя бы.
Сам сейчас подумываю над горутинами и каналами. Вы очень помогли, спасибо большое
*pgbouncer, конечно, а не pgpool. pgpool тожэ тысячу выдержыт, но ему это будет скорее нагрузка, а баунсеру -- скорее нет ничто.
Обсуждают сегодня