Народ, подскажите плиз, есть 2 колонки с наименованиями. Поидее они

Question

Народ, подскажите плиз, есть 2 колонки с наименованиями. Поидее они

дублируются но одно поле - истинное а второе вбивали люди. Часто в одной из двух колонок есть сокращения и аббривеатуры которых нет в другой. Как лучше оценить степень "похожести" учитывая что Левенштейн и прочие не подойдут. Есть мысль попробовать через апи какой нибудь ллм вывести что то вроде степени вероятности того что текст 1 == текст 2. Есть ли у кого такой опыт или возможно есть варианты лучше?

#database #programming #russian #software

0

08.11.2023

2 ответов

40 просмотров

Антон Дорохов Автор вопроса

Vladimir F
https://en.m.wikipedia.org/wiki/Soundex#:~:text=So...

Пока ничего из алгоритмов не пробовал, только смотрел по сортированным векторам но в остатке как раз много кейсов где текст_1 аббревиатура а текст_2 либо полная либо частичная расшифровка

0

08.11.2023

Vladimir F · Accepted Answer

Vladimir F

https://en.m.wikipedia.org/wiki/Soundex#:~:text=Soundex%20is%20a%20phonetic%20algorithm,despite%20minor%20differences%20in%20spelling. - пробовал?

0

08.11.2023

215 похожих чатов

Народ, подскажите плиз, есть 2 колонки с наименованиями. Поидее они

2 ответов

Похожие вопросы