сникерса в одно.
У меня схожий вопрос есть только с схлопыванием наименований магазинов и схлопыванием названий улиц. В какую сторону идти искать? Через RegExp пока работаю, но есть впечатление, что должны быть способы поумнее.
у меня была похожая задача с магазинами. я кластеризировала все, а потом в небольших группах искала расстояние левенштейна. (похожие сущности с похожим поведением и названиями скорее всего являются одной и той же сущностью). но это сработает только если у тебя есть ещё какие-то параметры в датасете, кроме, собственно, названий
Обсуждают сегодня