Похожие чаты

Привет всем. На работе дали задачу. Есть некий набор данных, очень

большой, и необходимо оценить качество данных.

Данный вида
Раздел | Заголовок товара/объявления/услуги/предложения/вакансии | Лемма

Определяется это некоторым алгоритмом или даже алгоритмами, суть которых глобально не важна, но Лемма опредляется по заголовку(это не AI) и зависит от раздела, а раздел определяет пользователь/компания/и любой другой человек при публикации


Например.

"Продам мягкого мишку медведь 100см"
Следовательно я помещать это буду в раздел "Игрушки для детей", а лемма определиться "Мягкие игрушки".

Суть задачи в том, чтобы оценить процент качества данных. Т.е. понять сколько правильных в наборе раздел+заголовок, заголовок+лемма, раздел+заголовок+лемма.

Да, бывают ситуации, когда пользователь продавая детские игрушки помещает это в детское питание, а лемма определиться может вообще как "Кино и культура". Бывает и так, что разделы правильные, однако лемма могла определиться не совсем корректно.

Не прошу решить задачу за меня! Я хочу лишь услышать совета, какую модель лучше использовать для этого. А мб и что-то еще подскажите. Или направите туда, где могут подсказать с этим вопросом.

Я уже успел обучить модель на раздел+заголовок+лемма. Использовал BERT. Качество показывает 99%, однако при закидывании явно не правильных 55к строк, возвращает около 500 якобы правильных. Да, мало, но там модель явно ошиблась, есть записи, где можно понять почему, но такие редко встречаются. Чаще очень тривиальные наборы, которые очевидно не правильные, но моделью воспринимаются за истинные.

— Почему хочу услышать совет? Есть небольшое ощущение, что существуют варианты получше, возможно стоит дообучить модель, а возможно для такой задачи лучше использовать другую.

— Гуглил ли я? Да, но как будто несколько лет активного гугления прошли даром и я ничего не нашёл.


_______________________________________________________________

FIY: ML занимаюсь ровно столько, сколько занимаюсь задачей. 1,5 недели. До этого имел общее представление и небольшое понимание алгоритмов работы, но не углублялся. Хватит даже названия модели или примерного вектора, куда еще можно посмотреть, а дальше я сам всё изучу.

Заранее спасибо.

1 ответов

53 просмотра

https://youtu . be/I9RMwvyzGpM https://youtu . be/xjFXG4QyCU4 Как вариант для понимания поможет это

Похожие вопросы

Обсуждают сегодня

Подобного рода ;Следующие три строки это директивы ассемблера, ;которые можно не задавать, т.к.работаем в Visual Studio. ;Символ ";" - это начало однострочного комментария ...
Егор Анелькин
3
А еще в перле можно уже @arr1 + @arr2?
Sergei Zhmylove
53
я не магистр хаскеля, но разве не может лейзи тип конвертнуться в не-лейзи запросив вычисление содержимого прям при инициализации?
deadgnom32 λ madao
100
Привет всем. появился вопрос. Разрабатываю сайт, в данный момент он запущен. Хостинг beget. Добавляю на сайт яндекс метрику с помощью полей client-settings (взято отсюда http...
Andrew
2
Morning people Just seeing the conversation about Mining. It's clear that at this point in time it doesn't look like there is much point to it. But the Hasrate is at a al...
Kenny
4
I arrived here after a Chico Crypto show highlighted the project & the Team - the fact that the Team had a long history of successfully working with household names gave me e...
Banter is Bullish
1
Только сейчас дошли руки до Orange pi 5. Это нормально что на нем YOLOv5s выдает 1 кадр раз в 2-3 секунды на CPU? Это без оптимизаций и прочих настроек, просто голый запуск че...
Denis
10
Подскажите, где смотреть результат выполнения программы? Код: ;.686 ;Система команд процессора 686 ;.MODEL FLAT,stdcall ;Модель памяти плоская, станда...
Егор Анелькин
5
Где в Астане можно купить мясо для шашлыков?
Dancing Іңұқәһүғө
21
Кто-нибудь может присоветовать какого-то приличного посредника для принятия бабок от юриков в ЕС с контрактами/инвойсами в направлении счёт ИП в ру банке или крипта-без-скана-...
knopki 👾
8
Карта сайта