не придумал хорошего решения.
Вот есть таблица картинок, в которой требуется хранить ссылку, размеры и что-то ещё, например её площадь: images (url, width, height, square). Данные мы получаем в 3 этапа: первый скрипт добавляет url, второй скачивает картинку и заполняет ширину и высоту, третий считает для картинке площадь. Второй скрипт, скачивающий картинку, вполне может отработать с ошибкой и картинку не скачать. А если картинка более Х раз не скачалась, то больше её не пытаемся скачать.
Вопрос: каким запросом выбирать урлы во втором скрипте, чтобы не скачивать уже скаченное и то, что не удалось скачать ранее много раз?
Например, хранить количество скачиваний во внешней бд, в кх читать через словарь
Можно вообще всю очередь хранить не в кликхаузе, а уже на последнем этапе писать
выкинуть КХ и взять кассандру. Тут КХ вообще зачем?
Обсуждают сегодня