слайсе?
Пока придумал только такой вариант: https://go.dev/play/p/LtnNd-S1akG
Нужно ускорить код, так как нужно будет обрабатывать string. Файлы бывают по 10kk строк.
Только map[int]struct{}
Каким образом бороться с крупными файлами? Например 10-20kk строк нужно проверить на дубли. Файл может весить 2-3gb. При проверке карта увеличивается, соответственно растёт потребление оперативной памяти...
В теории можно посмотреть в сторону фильтра Блума и подобных решений
Сделать хэши с них и уже хэши сравнивать
https://www.geeksforgeeks.org/find-duplicates-in-on-time-and-constant-extra-space/
В мапу уже хэш писать а не текст
Обсуждают сегодня