170 похожих чатов

Чат, а как бороться с переобучением у бертов? Есть датасет

(каггловский про классификацию двух предложений следует ли одно из другого) 10к точек в трейне. И large и base быстро упираются в ноль по трейн лоссу. Стоит weight decay 0.1, может есть какие то подходы к аугментации неочевидные? Из очевидных придумано что можно поменять местами премис и гипотезу, и надергать премисы и гипотезы из разных классов. Есть еще какие то может кейворды которые помогут?

3 ответов

10 просмотров

Про NLI задачу я слышал, что сами обучающие датасеты часто собраны криво, и если подавать в берт только premise или только hypothesis, то они всё равно неплохо классифицируются. Я бы проверил, так ли это в вашем случае. Если да, то нужно собирать более сложные и сбалансированные обучающие данные.

Roman-V Автор вопроса
David Dalé
Про NLI задачу я слышал, что сами обучающие датасе...

а это происходит потому что внутри класса есть какая то характерная структура у гипотезы которую модель учит вместо обучения собственно инференсу?

Roman V
а это происходит потому что внутри класса есть как...

Да, идея в этом. Часто эти гипотезы создаются краудворкерами в задачах типа "придумайте одну правильную и одну неправильную подписи к этой картинке", и люди придумывают эти правильные и неправильные подписи по-разному - так, что часто можно догадаться, какая из них задумывалась как неправильная, даже не глядя на саму картинку.

Похожие вопросы

Обсуждают сегодня

А как старый хаскел с новым стыковать ? потому как тут работает https://play.haskell.org/saved/C3xpMzcd, а вот тут https://stepik.org/lesson/7602/step/9?unit=1473 нет ошибка C...
Fedor
131
Вопрос я правильно понимаю что в коде newtype ArrowMap k v = ArrowMap { getArrowMap :: k -> Maybe v } getArrowMap есть функция типа k -> Maybe v, если да, то не понимаю задач...
Fedor
64
Доброе утро! Не совсем понятно как установить счетчик яндекс метрики на сайт. И потом ещё цели проставить?
Евгения
18
Как Вы считаете нормально ли в двадцатых годах 21 века в ВУЗах Российской Федерации обучать студентов работе с TASM? Не слишком ли это "архаично"? (Если оффтоп или флейм для э...
Spiker01
52
Продолжая диалог про свифт в проде – сейчас возник вопрос в активном наборе бекендеров. В основном в нашей компании мы фанаты Java Spring и полностью ей довольны. Однако найм ...
Guseyn
27
Комрады, хотел уточнить. Проперть в OnDestroy юнита-хозяина по-прежнему доступна? И еще уточнение: finalization юнита наступает раньше или позже OnDestroy?
Ed Doc
48
Кто-нибудь знает, как считается нагрузка на цпу? И что такое вообще "нагрузка на цпу"? вот, например, есть у цпу какой-то clock, настроенный на 3 ГГц --- Что значит "нагрузка...
Toideng
15
Можно ли написать свою библиотеку "socket" на каком либо языке ассемблера с нуля не используя сишние библиотеки ? Или это самоубийство ?
123🪐
15
Читаю сейчас [нет, уже больше не читаю!] курсовую о Булгакове, написанную, похоже, с помощью ChatGPT. Это удивительный психоделический опыт. Текст в основном написан в стиле б...
✨ Uni [🌊 В отпуске]
1
Всем привет! поделитесь, пож-та, как кто дебажил / решал проблему с 504 Time out ошибкой от nginx, когда стучишься на свой vapor сервер? в логах /var/log/nginx/error.log е...
Paul
24
Карта сайта