сайт и выкачивает оттуда картинки. Работает. Но возвращает кучу дубликатов, так уж сложилось на том сайте. Насколько хорошо считать, что если у картинки хеш первых 32кб одинаков(jpg/png), то это одна картинка? Сейчас для борьбы выкачивается вся картинка и только потом считается хеш.
а сравнивать картинки слишком дорого?
Ну, если нужно сравнить все скачанные до этого, и текущую, то эффективнее хранить хеш предыдущих?
crc32
А можно было сначала длины сравнить
А зачем её? Если уж выкачивать, то лучше sha1
Обсуждают сегодня