и фамилий, какой подход даёт высокую точность? На вход поступают два больших списка в которых возможна: 1) перестановка имени и фамилиии, 2) опечатка, 3) похожая запись, например буква z может быть записана как th.
Каким путем идти: сеть Хопфилда, расстояние Левенштейна, метод N-грамм или что-то другое?
соответствие чему?
Имя и фамилию одного человека можно на английском записать по разному. Независимо от записи данных нужно понимать о ком идёт речь.
лично я поступил, собрав датасет имён. и потом выделял имя. левенштейном можно опечатки считать. в общем, задача строчек на 100.
Обсуждают сегодня