помощь.
Есть строка: анкер клиновой М10*130/10/15 холодный цинк. Я знаю, что этой строке соответствует строка: анкер М10*130. И у меня огромное количество таких сопоставлений в excel файле для разных наименований. Я хочу чтобы какой-то алгоритм обучился на моих данных и когда я покажу ему строчку формата: "анкерный болт клин М10*130/10/15 оцинк." он её понял и сказал мне что это "анкер М10*130". В строках, которые необходимо распознавать встречаются опечатки синонимы и т.д. То есть мне необходимо не вычленять суть а просто сопоставлять строки, которые могут отличаться от изначального датасета. Если алгоритм неправильно определит строку, я бы добавлял её в изначальный датасет, чтобы он делал сопоставление точнее.
В какую сторону мне смотреть? По какой теме информацию смотреть?
что с "дефолтным" bag of words + xgboost ? не пробовали?
дообучить берт на next sentence prediction, с лёту будет неплохо работать
Даже на русском?
ну rubert
Тут лучше не bag of words, a bag of character ngrams (от 2 до 6 где-то), чтобы сходство "анкер" и "анкерный" уловить.
да в классических схемах была еще и лемматизация. пробовать надо.
Обсуждают сегодня