Похожие чаты

Привет всем. На работе дали задачу. Есть некий набор данных, очень

большой, и необходимо оценить качество данных.

Данный вида
Раздел | Заголовок товара/объявления/услуги/предложения/вакансии | Лемма

Определяется это некоторым алгоритмом или даже алгоритмами, суть которых глобально не важна, но Лемма опредляется по заголовку(это не AI) и зависит от раздела, а раздел определяет пользователь/компания/и любой другой человек при публикации


Например.

"Продам мягкого мишку медведь 100см"
Следовательно я помещать это буду в раздел "Игрушки для детей", а лемма определиться "Мягкие игрушки".

Суть задачи в том, чтобы оценить процент качества данных. Т.е. понять сколько правильных в наборе раздел+заголовок, заголовок+лемма, раздел+заголовок+лемма.

Да, бывают ситуации, когда пользователь продавая детские игрушки помещает это в детское питание, а лемма определиться может вообще как "Кино и культура". Бывает и так, что разделы правильные, однако лемма могла определиться не совсем корректно.

Не прошу решить задачу за меня! Я хочу лишь услышать совета, какую модель лучше использовать для этого. А мб и что-то еще подскажите. Или направите туда, где могут подсказать с этим вопросом.

Я уже успел обучить модель на раздел+заголовок+лемма. Использовал BERT. Качество показывает 99%, однако при закидывании явно не правильных 55к строк, возвращает около 500 якобы правильных. Да, мало, но там модель явно ошиблась, есть записи, где можно понять почему, но такие редко встречаются. Чаще очень тривиальные наборы, которые очевидно не правильные, но моделью воспринимаются за истинные.

— Почему хочу услышать совет? Есть небольшое ощущение, что существуют варианты получше, возможно стоит дообучить модель, а возможно для такой задачи лучше использовать другую.

— Гуглил ли я? Да, но как будто несколько лет активного гугления прошли даром и я ничего не нашёл.


_______________________________________________________________

FIY: ML занимаюсь ровно столько, сколько занимаюсь задачей. 1,5 недели. До этого имел общее представление и небольшое понимание алгоритмов работы, но не углублялся. Хватит даже названия модели или примерного вектора, куда еще можно посмотреть, а дальше я сам всё изучу.

Заранее спасибо.

1 ответов

92 просмотра

https://youtu . be/I9RMwvyzGpM https://youtu . be/xjFXG4QyCU4 Как вариант для понимания поможет это

Похожие вопросы

Обсуждают сегодня

30500 за редактор? )
Владимир
47
any reference of this implementation?
BitBuddha
29
Ⓐrtto, [4/23/24 7:02 PM] Please explain more fully how it is not working exactly, and what are the steps you are taking, and what error messages come or what happens. Ⓐrtto, ...
Ezza Kezza
2
sounds like people have lost their kaspa on tradeogre... does this mean tradeogre not trustworthy?
Ezza Kezza
15
Страшнейшая правда про списки ЦБ. С первых дней жизни P2P сферы, молодые человеки, начитавшись законодательной базы и "внутренних" документов, решили, что им противостоит сер...
Foxcool
3
Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
So much speculation in the last week. So much volatility in price. This is because Hedera has a GC that isn't using the network it's governing. Why aren't people asking why a...
Summit Seeker R
9
Anyone else having this error when trying to make transactions?
Datzel
11
Question: How viable is it to use Anvil as the backend infrastructure for managing a TradFi portfolio, while integrating Flexa for instant liquidity and payment solutions? Cou...
Kevin
2
вы делали что-то подобное и как? может есть либы готовые? увидел картинку нокода, где всё линиями соединено и стало интересно попробовать то же в ddl на lua сделать. решил с ч...
Victor
8
Карта сайта