Ребят сорри за оффтоп. Есть задача. Есть файлы с наименованиями

Question

Ребят сорри за оффтоп. Есть задача. Есть файлы с наименованиями

продуктов, которые заполняются людьми. Проблема в том, что одно и тоже название товара может иметь ошибки в названии. Алгоритмы нечеткого поиска работают не очень. Нужен ai специализированный. Есть ли, что-то готовое ?

#backend #go #programming #russian

0

28.10.2023

16 ответов

44 просмотра

Руслан X Автор вопроса

Yegor
Расстояние левинштейна тебе надо

Слишком много ошибок

0

28.10.2023

Yegor

Руслан X
Слишком много ошибок

Интерфейс меняй . Проще интерфейс ввода поменять чем убить пару человека лет на ИИ

0

28.10.2023

Руслан X Автор вопроса

Yegor
Интерфейс меняй . Проще интерфейс ввода поменять ч...

Не возможно. Это исходные данные так они и приходят. Сейчас эту проблему решает ручной труд

0

28.10.2023

Yegor

Руслан X
Не возможно. Это исходные данные так они и приходя...

если тебе левиншейн помогает - городи ИИ - только имхо это еще хуже будет

0

28.10.2023

Руслан X Автор вопроса

Yegor
если тебе левиншейн помогает - городи ИИ - только ...

Задача увеличить продуктивность команды, которая руками все проверяет и забивает данные. Сейчас понятно, что полностью автоматизировать это не получится. Но левеншейн алгоритм, помогает лишь отчасти. Просто есть ещё синонимы

0

28.10.2023

Yegor

Руслан X
Задача увеличить продуктивность команды, которая р...

Строй тогда базу синонимов . Я чет не понял допустим есть сыр , кто-то пишет хуыр?

0

28.10.2023

Руслан X Автор вопроса

Yegor
Строй тогда базу синонимов . Я чет не понял допуст...

Сыр плохой пример. Хлеб и булка отличные примеры

0

28.10.2023

Yegor

Руслан X
Сыр плохой пример. Хлеб и булка отличные примеры

Хлеб это более общие название куда входит и булка

0

28.10.2023

Руслан X Автор вопроса

Yegor
Хлеб это более общие название куда входит и булка

Если PoC не реализуем, то это тоже норм. Просто хотя бы понимать насколько выиграет бизнес от этого. Может легче увеличить команду ручного труда и забить

0

28.10.2023

Artem (☞ﾟヮﾟ)☞ Bortnikov

Руслан X
Если PoC не реализуем, то это тоже норм. Просто хо...

Ограничьте возможности изначального ввода списком допустимых вариантов )

0

28.10.2023

Руслан X Автор вопроса

Artem (☞ﾟヮﾟ)☞ Bortnikov
Ограничьте возможности изначального ввода списком ...

Блин я же написал что это исходные данные. Для нас это third-party. Для того, чтобы сделать по-нормальному, есть нужно ставить отдельный терминал и разработать софт под него

0

28.10.2023

Yegor

Руслан X
Если PoC не реализуем, то это тоже норм. Просто хо...

просто дайте тем кто у вас занимается этим удобный интерфейс и собирайте базу синонимов для начала , ну и левинщтейн на случай описок

0

28.10.2023

Dmitriy

O_O А нету универсальной модели, я бы в несколько этапов это всё прогонял 1. Нормализация по кодировке, т.е. Убедиться что все "букавы" в одной кодировке и нет путаницы, допустим, латиницы и кириллицы. 2. Тут неплохо бы параллельно проверить: 2.1. Суммарный набор букв "птому что самые расрпотсанённые оишбки это полседоваетльнотсь букв". 2.2. Вторая распостранённая ошибка - соседние коавишы. 2.3. Что-то вроде soundex для используемого языка, чтобы забороть безграмотность оператора, который пишет "цвет: сЕреневый" И на каждом этапе тыкался бы в словарь. Тут ещё по-хорошему нужен лёгкий NLP Как то так.

0

29.10.2023

Семён Комаров

Была похожая задача. Использовал на питоне SpaCy и из него модель ru_core_news_lg и потом у неё .similarity(). Работало достаточно неплохо. Только это было на хакатоне)) В проде не тестировал

0

29.10.2023

Iva

Руслан X
Не возможно. Это исходные данные так они и приходя...

Подключить апи чата гпт, дайте ему установки на естественном языке, он сам все отфильтрует

0

29.10.2023

Yegor · Accepted Answer

Yegor

Расстояние левинштейна тебе надо

0

28.10.2023

170 похожих чатов

Ребят сорри за оффтоп. Есть задача. Есть файлы с наименованиями

16 ответов

Похожие вопросы