продуктов, которые заполняются людьми. Проблема в том, что одно и тоже название товара может иметь ошибки в названии. Алгоритмы нечеткого поиска работают не очень. Нужен ai специализированный. Есть ли, что-то готовое ?
Расстояние левинштейна тебе надо
Слишком много ошибок
Интерфейс меняй . Проще интерфейс ввода поменять чем убить пару человека лет на ИИ
Не возможно. Это исходные данные так они и приходят. Сейчас эту проблему решает ручной труд
если тебе левиншейн помогает - городи ИИ - только имхо это еще хуже будет
Задача увеличить продуктивность команды, которая руками все проверяет и забивает данные. Сейчас понятно, что полностью автоматизировать это не получится. Но левеншейн алгоритм, помогает лишь отчасти. Просто есть ещё синонимы
Строй тогда базу синонимов . Я чет не понял допустим есть сыр , кто-то пишет хуыр?
Сыр плохой пример. Хлеб и булка отличные примеры
Хлеб это более общие название куда входит и булка
Если PoC не реализуем, то это тоже норм. Просто хотя бы понимать насколько выиграет бизнес от этого. Может легче увеличить команду ручного труда и забить
Ограничьте возможности изначального ввода списком допустимых вариантов )
Блин я же написал что это исходные данные. Для нас это third-party. Для того, чтобы сделать по-нормальному, есть нужно ставить отдельный терминал и разработать софт под него
просто дайте тем кто у вас занимается этим удобный интерфейс и собирайте базу синонимов для начала , ну и левинщтейн на случай описок
O_O А нету универсальной модели, я бы в несколько этапов это всё прогонял 1. Нормализация по кодировке, т.е. Убедиться что все "букавы" в одной кодировке и нет путаницы, допустим, латиницы и кириллицы. 2. Тут неплохо бы параллельно проверить: 2.1. Суммарный набор букв "птому что самые расрпотсанённые оишбки это полседоваетльнотсь букв". 2.2. Вторая распостранённая ошибка - соседние коавишы. 2.3. Что-то вроде soundex для используемого языка, чтобы забороть безграмотность оператора, который пишет "цвет: сЕреневый" И на каждом этапе тыкался бы в словарь. Тут ещё по-хорошему нужен лёгкий NLP Как то так.
Была похожая задача. Использовал на питоне SpaCy и из него модель ru_core_news_lg и потом у неё .similarity(). Работало достаточно неплохо. Только это было на хакатоне)) В проде не тестировал
Подключить апи чата гпт, дайте ему установки на естественном языке, он сам все отфильтрует
Обсуждают сегодня