Всем привет Вопрос про эффективное хранение метаданных Есть парсер товаров, у товаров

помимо основных полей есть id (уникальный внешний бигинт авто инкремент), таймстамп сбора данных, мд5 хэш полного текста ответа апи сбора. Сейчас все это добро хранится в одной большой таблице постгреса, ETL перезаписывает строки с тем же id и изменившимся хэшем, но из-за больших объемов это происходит небыстро.
Парсер пишет чанки по 250 товаров в csv, вне зависимости от того есть товар с таким же id+md5 в базе или нет, потом обработчик (пандас) эти чанки сгребает, колдует и пуляет в сырую таблицу сравнивая id+md5.
Очевидная проблема, что разделенные парсер и обработчик приводят к тому, что пока обновленный товар лежит в csv, а в базу еще не попал, парсеру и обработчику эта информация недоступна, и выходит что если накопилось 2-3 изменения товара, то будет происходить обработка этого товара столько же раз вместо игнорирования предыдущих версий и залива только актуальной, что аффектит скорость обновления информации в бд

Собственно идея в хранении метаданных в микроинстансе редиса в виде хэш таблицы, это разгрузит постгрес и чтение/запись метаданных будет сильно быстрее, и обработчик уже будет в курсе что можно выбросить Плюсы минусы подводные камни?
Понимаю что надо будет делать бэкапы редиса периодические, но это не страшно

6 ответов

18 просмотров

> ETL перезаписывает строки с тем же id и изменившимся хэшем, но из-за больших объемов это происходит небыстро. Большие объемы это сколько записей в секунду7

Алексей-Мелолян Автор вопроса

Большие объёмы это прежде всего размер конечной таблицы, 3.4 миллиона записей Есть партиции по месяцу, но не особо спасает, это 3 месяца всего

Алексей Мелолян
Большие объёмы это прежде всего размер конечной та...

3.4 млн изменений (которые добавляются) в день? Если всего строк в таблице, так это копейки. По памяти, инкремент в одну таблицу был до 1 ляма записей в день (а всего "товаров" было 8 млн которые каждый день проверялись). Сами таблицы с историей были ок 500 лям. таких таблиц до 10 на один сервер

Я возможно туплю, но просто добавлять, не перезаписывая нельзя? А в момент получения, оконкой все селектить? Насколько я помню, у пг шустрая оконка

Алексей-Мелолян Автор вопроса
Владислав Lazycat
Я возможно туплю, но просто добавлять, не перезапи...

Боюсь базу раздует совсем( Попробую попрофайлить это дело, спасибо за идею

Похожие вопросы

Обсуждают сегодня

Добрый вечер, Пока не совсем понимаю как наладить общение между телеграм ботом и ПО для работы с сим боксом. По самому боту так понял: - Нужен некий баланс, который можно поп...
Magic
6
сделал сайт, прикрутил в боте сайт, и виджет логина. как автоматически логинить пользователя в аккаунт(телеграм), при входе с бота?
Александра Чернивецкая
5
Объясните, пожалуйста, почему компилятор ругается на использование в условии неинициализированной переменной: int x; Task.Run(async () => { x = await somefunc(); }).Wait...
Александр
5
Ребят, подскажите, пожалуйста, почему в префиксе к ассетам, которые генерируются через фильтр | theme в шаблоне, стал вдруг появляться index.php? Вот так выглядит ссылка на а...
Виталий
1
Всем привет. Ребята, подскажите, пожалуйста. у ботов есть ограничение на отправку сообщений - 30 сообщений в секунду, эти ограничения накладываются на все сообщения? или на со...
Artem Stormageddon
4
Блин, ребята, сори за тупые вопросы. А можно ли как-то открыть вебапку по нажатию на кнопку в меню(которое появляется слева, команды)?
Artem Stormageddon
3
а плаксы из-под питона умеют только в комфортных условиях что-то выдавить из себя?)
Lencore
9
Но, может, есть уже проверенная? Наши требования такие: 1. Сообщения должны приходить из Инста в CRM оду 2. Должна быть возможность подключить несколько экаунтов Инстаграм. Р...
Alexander Sharoiko MSE / Александр Шаройко
13
Это может быть все-таки не флудвейт? у меня ботфазер принимает изменения и отображает даже что они изменились, на видео видно что он прислал якобы уже измененное описание, н...
OVERLINK
13
Коллеги, может знает кто, можно ли цвет бейджа счётчика в BackendMenu менять без бубнов?
Alex Blaze
3
Карта сайта