Добрый день, подскажите пожалуйста! Вторую неделю бьюсь с загрузкой 1М

Question

Добрый день, подскажите пожалуйста! Вторую неделю бьюсь с загрузкой 1М

строк в БД. Вот основные момент кода: https://codeshare.io/2KVX6X

пытаюсь сделать bulk_create с указанием batch_size, но исхода два: 1. Если большой батч сайз, то заканчивается оперативка и БД вылетает с ошибкой 2. Если батч сайз слишком маленький, то улетает куча запросов в БД + заполнение происходит долго.

Может ли быть проблема в том, что каждая строка, которую я хочу добавить, имеет связанный ForeignKey? Как можно исправить ситуацию?(

#backend #django #programming #python #russian

0

12.03.2021

22 ответов

25 просмотров

Vlad Naumov Автор вопроса

Ну неужели никто миллион записей в БД не вносил?)

0

12.03.2021

Vlad Naumov Автор вопроса

Да пусть хоть 5, хоть 10 минут грузится. Как правильно это сделать?

0

12.03.2021

Tim

ну зависит от того как нужно это делать, для джанги есть иморт \ экспорт либы, а еще можно написать менеджмент команду и запускать с указанием файла - типа python manage.py import_data filename если база sqlite то будет очень долгая вставка, если создаются индексы сразу то будет очень долго тоже, зависит от полей конечно) для интовых не сильно как для текстовых

0

12.03.2021

Stepan

Я по 50к в одном queryset грузил, все было ок.

0

12.03.2021

Stepan

К одному миллиону имеется ввиду

0

12.03.2021

Stepan

На postgresql

0

12.03.2021

Alexander Shavelev

> Если батч сайз слишком маленький, то улетает куча запросов в БД + заполнение происходит долго так запустили бы и я за 2 недели явно загрузилось

0

12.03.2021

Vlad Naumov Автор вопроса

Только мне надо 3 раза в день обновлять))

0

12.03.2021

Alexander Shavelev

ну записать 3миллиона в сутки не должно быть проблемой

0

12.03.2021

Alex Dem

Я не знаю что делает bulk_create под капотом, возможно как раз тоже самое что я сейчас предложу Но не пробовал случайно поиграть с транзакциями?

0

12.03.2021

Alex Dem

тут можно почитать о том как сделать банч действий одной транзакцией, проверить мою теорию можно предельно быстро) https://docs.djangoproject.com/en/3.1/topics/db/transactions/

0

12.03.2021

Vlad Naumov Автор вопроса

Вы atomic имеете ввиду. Я если честно, плохо понял, как оно работает. Но вроде bulk_create использует именно его. Что я ещё проверил: 1. Мой генератор, который выдаёт кол-во объектов, которое равно batch_size, жрет оперативу. С каждый циклом все больше 2. Гружу 200к позиций батчами по 5к. После перезагрузки сервера и БД отрабатывает ОК. Если второй раз запустить то оперативка сжирается и БД отключает соединение. Попробую оперативы на хостинг докинуть, может исправит ситуацию

0

12.03.2021

Нонейм Программист Павлов

А ведь можно было бы просто создать менеджмент команду, которая фором проходит по файлу и создаёт все что надо

0

12.03.2021

Alex Dem

да, атомик атомик оборачивает блок кода в одну транзакцию что делает bulk create -я уже скинул память может кончаться из-за мусора в памяти, у питона дерьмовый GC

0

13.03.2021

Alex Dem

" Мой генератор, который выдаёт кол-во объектов, которое равно batch_size, жрет оперативу. С каждый циклом все больше" вот над этим стоит поработать отработанные данные надо сбрасывать, конечно

0

13.03.2021

Vlad Naumov Автор вопроса

Не подскажите, как это делать? Куда копать?

0

13.03.2021

Alex Dem

https://stackoverflow.com/questions/1316767/how-can-i-explicitly-free-memory-in-python попробуй где это уместно

0

13.03.2021

Vlad Naumov Автор вопроса

О, спасибо. Попробую

0

13.03.2021

Alex Dem

но сначала надо убедиться, что проблема в GC отработанные данные сбрасываешь так или иначе, или они висят где-то в объектах?

0

13.03.2021

Vlad Naumov Автор вопроса

Нет, сам ничего не сбрасываю. Весь основной код, отвечающий у меня за процесс заполнения сбрасывал выше. Читаю csv на 1м строк, создаю датафрейм - все с помощью pandas. И потом генератором отдаю части в bulk_create. Попробую в цикл засунуть сборку мусора

0

13.03.2021

Alex Dem

"Нет, сам ничего не сбрасываю. " вот я бы озадачился удалением ненужных объектов Вполне возможно, что виноват не GC, а код, который держит в памяти лишние объекты

0

13.03.2021

Tim · Accepted Answer

Tim

за раз это долго, и зависит от размера записей и еще разных параметров

0

12.03.2021

170 похожих чатов

Добрый день, подскажите пожалуйста! Вторую неделю бьюсь с загрузкой 1М

22 ответов

Похожие вопросы