решить как сравнить мне два фрейма по 14 столбцов в каждом и найти точные совпадения строк, а так же выбрать строки где допускаются отличия от одного до шести.
Вот пример фреймов:
1;2;2;2;1;x;2;1;1;2;x;x;2;x
1;2;2;2;1;x;2;1;2;2;x;x;2;x
1;2;2;2;1;x;2;1;1;2;x;1;2;x
В одном почти 5млн. Строк со всеми возможными перестановками 1,х,2
А в другом все то около 50 тыс.
Задача найти полное совпадение, а также частичное совпадение. Минимальное частичное совпадение должно быть от 9 до 13.
Предполагаю что это возможно сделать пересечением, но это не точно. Так же смотрел корреляцию. В итоге я так и не понял в каком направлении двигаться.
Кто подскажет направления поиска решения данной задачи?
А по сути тебе их надо как сравнить? И например если в 4 столбцах abab, то это ноль совпадений с baba?
Фреймы... пандас?
По сути надо брать больший фрейм и найти строки в меньшем, соответствующие условиям. Полное совпадение и частичное. И да, не только строка должна совпадать по наличию тех или иных данных но и строго по столбцам.
Хм, ну а просто в лоб перебрать попарно, посчитать совпадения, в зависимости от количества выбрать пары с полным и частичным совпадением почему не хочешь? Я к тому что если разовая задача и упор на результат, то можно не париться имхо (что-то не получилось у меня сходу подобное нагуглить)
В лоб это как? В ручную?
Обсуждают сегодня