Похожие чаты

Привет всем. На работе дали задачу. Есть некий набор данных, очень

большой, и необходимо оценить качество данных.

Данный вида
Раздел | Заголовок товара/объявления/услуги/предложения/вакансии | Лемма

Определяется это некоторым алгоритмом или даже алгоритмами, суть которых глобально не важна, но Лемма опредляется по заголовку(это не AI) и зависит от раздела, а раздел определяет пользователь/компания/и любой другой человек при публикации


Например.

"Продам мягкого мишку медведь 100см"
Следовательно я помещать это буду в раздел "Игрушки для детей", а лемма определиться "Мягкие игрушки".

Суть задачи в том, чтобы оценить процент качества данных. Т.е. понять сколько правильных в наборе раздел+заголовок, заголовок+лемма, раздел+заголовок+лемма.

Да, бывают ситуации, когда пользователь продавая детские игрушки помещает это в детское питание, а лемма определиться может вообще как "Кино и культура". Бывает и так, что разделы правильные, однако лемма могла определиться не совсем корректно.

Не прошу решить задачу за меня! Я хочу лишь услышать совета, какую модель лучше использовать для этого. А мб и что-то еще подскажите. Или направите туда, где могут подсказать с этим вопросом.

Я уже успел обучить модель на раздел+заголовок+лемма. Использовал BERT. Качество показывает 99%, однако при закидывании явно не правильных 55к строк, возвращает около 500 якобы правильных. Да, мало, но там модель явно ошиблась, есть записи, где можно понять почему, но такие редко встречаются. Чаще очень тривиальные наборы, которые очевидно не правильные, но моделью воспринимаются за истинные.

— Почему хочу услышать совет? Есть небольшое ощущение, что существуют варианты получше, возможно стоит дообучить модель, а возможно для такой задачи лучше использовать другую.

— Гуглил ли я? Да, но как будто несколько лет активного гугления прошли даром и я ничего не нашёл.


_______________________________________________________________

FIY: ML занимаюсь ровно столько, сколько занимаюсь задачей. 1,5 недели. До этого имел общее представление и небольшое понимание алгоритмов работы, но не углублялся. Хватит даже названия модели или примерного вектора, куда еще можно посмотреть, а дальше я сам всё изучу.

Заранее спасибо.

1 ответов

97 просмотров

https://youtu . be/I9RMwvyzGpM https://youtu . be/xjFXG4QyCU4 Как вариант для понимания поможет это

Похожие вопросы

Обсуждают сегодня

Господа, а что сейчас вообще с рынком труда на делфи происходит? Какова ситуация?
Rꙮman Yankꙮvsky
29
А вообще, что может смущать в самой Julia - бы сказал, что нет единого стандартного подхода по многим моментам, поэтому многое выглядит как "хаки" и произвол. Короче говоря, с...
Viktor G.
2
@Benzenoid can you tell me the easiest, and safest way to bu.y HEX now?
Živa Žena
20
This is a question from my wife who make a fortune with memes 😂😂 About the Migration and Tokens: 1. How will the old tokens be migrated to the new $LGCYX network? What is th...
🍿 °anton°
2
30500 за редактор? )
Владимир
47
а через ESC-код ?
Alexey Kulakov
29
What is the Dex situation? Agora team started with the Pnetwork for their dex which helped them both with integration. It’s completed but as you can see from the Pnetwork ann...
Ben
1
Гайс, вопрос для разносторонее развитых: читаю стрим с юарта, нада выделять с него фреймы с определенной структурой, если ли чо готовое, или долбаться с ринг буффером? нада у...
Vitaly
9
Anyone knows where there are some instructions or discort about failed bridge transactions ?
Jochem
21
@lozuk how do I get my phex copies of my ehex from a atomic wallet, to move to my rabby?
Justfrontin 👀
11
Карта сайта