APP идет через xlsx (сохранение типов, человекочитабельность, мульти sheet в одном файле).
Скоро ожидаем большой обьем инфо (более миллиона строк). Каким образом можно остаться при своих? (ограничение xls формата 1млн строчек в одном sheet).
Почему-то не хочется разделять на sheet chunks, равно как и выделять в отдельные файлы и их потом сливать в один, равно как и читать их по отдельности все.
Какие тут подводные камни, есть ли best practice? От разных ERP в разном формате приходят данные, есть трансформ скрипт который их сливал(и будет, для мелких обьемов) в одну xlsx
Big data это когда данные не помещаются на одном сервере
туда же вопрос, 20 млн товаров, 50 млн аттрибутов поместятся на одном сервере Postgres? или уже надо что-то думать)
А оно не помещается?
я бы сделал отдельную точку входа которая нормализует данные к одному формату и складывал бы уже их в какую-то очередь на инджест в систему. В этом случае батчинг если мы этого хотим можно встроить где-то на уровне этой самой очереди, а валидацию данных оставить на точке входа.
Обсуждают сегодня