169 похожих чатов

Привет всем. У меня такой вопрос. очень надеюсь на вашу

помощь.
Есть строка: анкер клиновой М10*130/10/15 холодный цинк. Я знаю, что этой строке соответствует строка: анкер М10*130. И у меня огромное количество таких сопоставлений в excel файле для разных наименований. Я хочу чтобы какой-то алгоритм обучился на моих данных и когда я покажу ему строчку формата: "анкерный болт клин М10*130/10/15 оцинк." он её понял и сказал мне что это "анкер М10*130". В строках, которые необходимо распознавать встречаются опечатки синонимы и т.д. То есть мне необходимо не вычленять суть а просто сопоставлять строки, которые могут отличаться от изначального датасета. Если алгоритм неправильно определит строку, я бы добавлял её в изначальный датасет, чтобы он делал сопоставление точнее.
В какую сторону мне смотреть? По какой теме информацию смотреть?

6 ответов

17 просмотров

что с "дефолтным" bag of words + xgboost ? не пробовали?

дообучить берт на next sentence prediction, с лёту будет неплохо работать

Lik-Nani Автор вопроса

Даже на русском?

ну rubert

Тут лучше не bag of words, a bag of character ngrams (от 2 до 6 где-то), чтобы сходство "анкер" и "анкерный" уловить.

да в классических схемах была еще и лемматизация. пробовать надо.

Похожие вопросы

Обсуждают сегодня

@MrMiscipitlick А можешь макрос написать, который будет вычислять смещение относительно переданных меток? Просто .label1-.label2, и вернуть значение.
КТ315
35
я не магистр хаскеля, но разве не может лейзи тип конвертнуться в не-лейзи запросив вычисление содержимого прям при инициализации?
deadgnom32 λ madao
100
А еще в перле можно уже @arr1 + @arr2?
Sergei Zhmylove
53
Подобного рода ;Следующие три строки это директивы ассемблера, ;которые можно не задавать, т.к.работаем в Visual Studio. ;Символ ";" - это начало однострочного комментария ...
Егор Анелькин
3
Привет всем. появился вопрос. Разрабатываю сайт, в данный момент он запущен. Хостинг beget. Добавляю на сайт яндекс метрику с помощью полей client-settings (взято отсюда http...
Andrew
2
Кто-нибудь знает почему SPM клонирует репо целиком? Некоторые репы просто огромные, как та же swift-syntax которая нужна для использования макросов. Сначала подумал, что это...
iMike
6
Подскажите, где смотреть результат выполнения программы? Код: ;.686 ;Система команд процессора 686 ;.MODEL FLAT,stdcall ;Модель памяти плоская, станда...
Егор Анелькин
5
Привет. Я верно понимаю, что в определении класса Монад m — зафиксирован (к тому же поскольку это моноид в категории эндофункторов). Т.е. используя байнд я не могу перемещать...
Arseny
5
еще вопрос, допустим мы создадим char массив из 10 элементов и присвоим ему через сканф 10 символов. и выведем все символы. Хотел спросить последний элемент /0 будет включать...
Anthem
11
;.686 ;Система команд процессора 686 ;.MODEL FLAT,stdcall ;Модель памяти плоская, стандартный ;вызов процедуры ;option casemap:no...
Егор Анелькин
1
Карта сайта