последний час, минуту).
Но для унификации считаем, что все источники отдают данные за текущий день всегда.
documents = api.get_data(from_time, to_time)
Условно так.
Конечному пользователю нужна относительная оперативность получения новых данных из БД (каждые 10 минут устраивает).
Потому, каждые 10 минут опрашивается источник, забираются данные (за весь день, как мы помним) и новые кладутся в БД.
Новые ли данные или нет — определяю индексом.
Сейчас ещё раз посмотрел код. На самом деле индекс — это последний эшелон контроля уникальности данных в БД.
До него ещё стоит поиск в коллекции.
next unless collection.find(document).count.zero?
collection.insert_one document
Возможно, придётся отказаться от индексов вовсе и полагаться только на поиск документа в коллекции (не найден — добавить).
Если источники возвращают все документы за текущие сутки при каждом опросе, то дешевле всего к каждому документу добавить общую временную отметку с датой и временем выгрузки и по успешному завершению выгрузки в какой-то коллекции обновлять эту отметку. Дальше при поиске использовать её в качестве фильтра
Обсуждают сегодня