наименование, цена), соответственно много неявных дубликатов, один и тот же товар называется в магазинах по разному ( Gucci Guilty Pour Homme в золотом яблоке и Gucci Guilty Pour Homme Eau de Parfum в Рив Гош).
Кто как боролся с такой проблемой? Какие методы подходы?
Пока одно на уме, это каждое название превратить в список и искать совпадение минимум например по 3 словам, если три слова совпадает, то можно считать название товара идентично. НО это очень муторно....
Идентификаторов товара нет?
Слушай я на вскидку посмотрела — в основном 1ое название отличился тока рив год
+
Читайте книги. Все уже давно придумано. И не надо инженерные навыки подменять менеджерские генерациями идей. https://en.m.wikipedia.org/wiki/Levenshtein_distance
Обсуждают сегодня