большой, и необходимо оценить качество данных.
Данный вида
Раздел | Заголовок товара/объявления/услуги/предложения/вакансии | Лемма
Определяется это некоторым алгоритмом или даже алгоритмами, суть которых глобально не важна, но Лемма опредляется по заголовку(это не AI) и зависит от раздела, а раздел определяет пользователь/компания/и любой другой человек при публикации
Например.
"Продам мягкого мишку медведь 100см"
Следовательно я помещать это буду в раздел "Игрушки для детей", а лемма определиться "Мягкие игрушки".
Суть задачи в том, чтобы оценить процент качества данных. Т.е. понять сколько правильных в наборе раздел+заголовок, заголовок+лемма, раздел+заголовок+лемма.
Да, бывают ситуации, когда пользователь продавая детские игрушки помещает это в детское питание, а лемма определиться может вообще как "Кино и культура". Бывает и так, что разделы правильные, однако лемма могла определиться не совсем корректно.
Не прошу решить задачу за меня! Я хочу лишь услышать совета, какую модель лучше использовать для этого. А мб и что-то еще подскажите. Или направите туда, где могут подсказать с этим вопросом.
Я уже успел обучить модель на раздел+заголовок+лемма. Использовал BERT. Качество показывает 99%, однако при закидывании явно не правильных 55к строк, возвращает около 500 якобы правильных. Да, мало, но там модель явно ошиблась, есть записи, где можно понять почему, но такие редко встречаются. Чаще очень тривиальные наборы, которые очевидно не правильные, но моделью воспринимаются за истинные.
— Почему хочу услышать совет? Есть небольшое ощущение, что существуют варианты получше, возможно стоит дообучить модель, а возможно для такой задачи лучше использовать другую.
— Гуглил ли я? Да, но как будто несколько лет активного гугления прошли даром и я ничего не нашёл.
_______________________________________________________________
FIY: ML занимаюсь ровно столько, сколько занимаюсь задачей. 1,5 недели. До этого имел общее представление и небольшое понимание алгоритмов работы, но не углублялся. Хватит даже названия модели или примерного вектора, куда еще можно посмотреть, а дальше я сам всё изучу.
Заранее спасибо.
https://youtu . be/I9RMwvyzGpM https://youtu . be/xjFXG4QyCU4 Как вариант для понимания поможет это
Обсуждают сегодня