Чат, а как бороться с переобучением у бертов? Есть датасет

Question

Чат, а как бороться с переобучением у бертов? Есть датасет

(каггловский про классификацию двух предложений следует ли одно из другого) 10к точек в трейне. И large и base быстро упираются в ноль по трейн лоссу. Стоит weight decay 0.1, может есть какие то подходы к аугментации неочевидные? Из очевидных придумано что можно поменять местами премис и гипотезу, и надергать премисы и гипотезы из разных классов. Есть еще какие то может кейворды которые помогут?

#nlp #programming #russian

0

25.05.2023

3 ответов

29 просмотров

Roman V Автор вопроса

David Dalé
Про NLI задачу я слышал, что сами обучающие датасе...

а это происходит потому что внутри класса есть какая то характерная структура у гипотезы которую модель учит вместо обучения собственно инференсу?

0

25.05.2023

David Dalé

Roman V
а это происходит потому что внутри класса есть как...

Да, идея в этом. Часто эти гипотезы создаются краудворкерами в задачах типа "придумайте одну правильную и одну неправильную подписи к этой картинке", и люди придумывают эти правильные и неправильные подписи по-разному - так, что часто можно догадаться, какая из них задумывалась как неправильная, даже не глядя на саму картинку.

0

25.05.2023

David Dalé · Accepted Answer

Про NLI задачу я слышал, что сами обучающие датасеты часто собраны криво, и если подавать в берт только premise или только hypothesis, то они всё равно неплохо классифицируются. Я бы проверил, так ли это в вашем случае. Если да, то нужно собирать более сложные и сбалансированные обучающие данные.

170 похожих чатов

Чат, а как бороться с переобучением у бертов? Есть датасет

3 ответов

Похожие вопросы