txt файла на наличие похожих строк и удалить их из одного из файлов, при этом удаляя также и строки где совпадают словосочетания при перестановке слов местами, например,
в первом файле слово1 слово2 слово 3
удаляем во втором строки
слово1 слово2 слово 3
слово1 слово 3 слово2
слово 3 слово2 слово1
Далее, нужно чтобы было возможность исключать не учитывать некоторые символы при этом, их подгружаем в txt файл, например, чтобы можно было добавить туда спецсимволы, предлоги.
Ну и самое главное и сложное то, что первый файл весит 12GB и строк в нем около 200млн, второй файл гораздо меньше 200–250мб.
Из второго удаляются строки, которые есть в первом.
По финалу выйдет прога на 3 гигабайта весом и будет требовать минимум 64г озу
На любом по сути
на каком умеете. согласитесь гораздо быстрее воспользоваться тем инструментом который знаете, чем изучать новый инструмент
знаю несколько: бейсик, асм, паскаль, пхп, си, си++, питон, баш
если заранее знаете что искать то баша достаточно, если заранее не знаете то пользуйтесь тем что умеете, на чём быстрее сделаете, если вопрос скорости не на первом месте
На том, который знаешь
он же перечислил список
Да там список такой, что легкое только из относительно выбирать
На ассемблере подобная программа уложится в пару десятков килобайт, но парсить строки там будет сдожно
На sql
Обсуждают сегодня