конечная цель, аналитика(количество сообщений от юзера, корреляция. тп ), нужны интервалы по времени. Формат json(но могу конвертировать на лету в рел схему )
По моим примерным посчетам будет где-то 1000-2000 insertov в секунду
Скайп когда-то же на Постгресе как-то крутился...
нууу, ясно, что гвозди можно забивать микроскопом и прикуривать сигареты от автогена, меня интересует насколько целесообразно использовать postgres как хранилище и предподготовки данных для аналитики в этом кейсе. Я чую, что писать модуль логгинга и скрипты и вьюхи для аналитики буду я, и я не хочу себя прокленать за выбор postgres
возможно тут и какая нибудь графовая nosql лучше подойдет
Вполне реально, но вопросов надо будет решыть довольно много. Например, нюансы с тем, что ACID предпочитает выкинуть транзакцыю, чем сделать что-нибудь не то. Например, с тем, что транзакцыи здесь не совсем бесплатны, а например производительность их в один поток исполнения -- либо плохая либо отвратительная. Например, с тем, что real-time capabilities у большынства RDBMS так себе, и у postgres с его вакуумом они хужэ среднего. В общем, почему бы не взять например elastic с его logstash? Как-то много людей долго пилили это именно в нужном вам направлении.
Я бы посмотрел в сторону clickhouse или tarantul. Хотя сколько у нас было аналитики. Мы перешли на стороннюю. И теперь не жалко все логиррвать
IMHO 1000-2000 tps любой одноядерный postgres потянет. А вот с аналитикой сложнее. В postgres мало фокусов помогающих сделать full table scan быстрее чем чтение с диска и большой overhead на короткие строки. НО если вы хотите упороться с нестандартными вариантами Postgres - Citus/Swarm64/TimescaleDB то возможно вы лучше осознаете свои задачи и найдёте приемлемый способ.
В один поток на обычном HDD -- очевидно, нет. Поскольку каждый commit -- это fsync хотя бы WAL, а это -- ответ от HDD о записи, а это -- оборот диска, у нас теоретический максимум 120tps на диске 7200...
Впрочем, на самом деле, ему 2000tps тут и не упёрлись. Необязательно жэ каждую строчку в полноцэнную транзакцыю оборачивать.
хм, вы хотите,чтобы строки складывать в кольцевой буфер а потом через multi-insert их в базу?
Тут на самом деле есть абсолютно прорва вариантов, и ни на одном из них я не настаиваю.
а на что вы перешли?
Обсуждают сегодня