некоторому алгоритму, проверять на дубликаты в самом в файле + проверять на дубликаты в файле с большым количеством строк.
Я использую банальный перебор в лоб. Слышал о хеш деревьях, но никогда не работал с ними. Это сильно ускорит обработку?
И ещё архитектурный вопрос. Мне нужно создать некоторые потоки которые занимаются взаимодействием с файлом(большой базой) для того, что бы запускать несколько потоков обработки файлов от пользователей. У кого-то есть пример такого решения?
На верном ли я пути….?
https://docs.python.org/3/library/difflib.html
спасибо, кажется нашёл то, что нужно. Осталось только решить проблему с многопоточностью
https://docs.python.org/3/library/io.html
не хватит слов всех языков, что бы описать мою благодарность тебе
Волшебная сила официальной документации))
Обсуждают сегодня