дублируются но одно поле - истинное а второе вбивали люди. Часто в одной из двух колонок есть сокращения и аббривеатуры которых нет в другой. Как лучше оценить степень "похожести" учитывая что Левенштейн и прочие не подойдут. Есть мысль попробовать через апи какой нибудь ллм вывести что то вроде степени вероятности того что текст 1 == текст 2. Есть ли у кого такой опыт или возможно есть варианты лучше?
https://en.m.wikipedia.org/wiki/Soundex#:~:text=Soundex%20is%20a%20phonetic%20algorithm,despite%20minor%20differences%20in%20spelling. - пробовал?
Пока ничего из алгоритмов не пробовал, только смотрел по сортированным векторам но в остатке как раз много кейсов где текст_1 аббревиатура а текст_2 либо полная либо частичная расшифровка
Обсуждают сегодня