CSV:
md5;value
test1;1
test2;1
test3;2
test4;4
Файлы могут быть миллионные.
Нужно брать данные из датасета в CSV и делать апдейт в SQL. В SQL соответственно тоже таблица тяжелая с индексами. Делать единичные транзакции такого типа не эффективно. Это длится вечность. Нужно как-то группировать. Посоветуете что-нибудь?
UPDATE table SET
(value) = ('1')
WHERE md5 = 'test1'
;
Можно погруппировать токены со одинаковыми value. И разбить на такие чанки. Но может есть что-нибудь эффективнее/умнее?
Для начала стоит знать: если файлы "милионные", то в md5 вполне вероятны коллизии.
Обсуждают сегодня