(каггловский про классификацию двух предложений следует ли одно из другого) 10к точек в трейне. И large и base быстро упираются в ноль по трейн лоссу. Стоит weight decay 0.1, может есть какие то подходы к аугментации неочевидные? Из очевидных придумано что можно поменять местами премис и гипотезу, и надергать премисы и гипотезы из разных классов. Есть еще какие то может кейворды которые помогут?
Про NLI задачу я слышал, что сами обучающие датасеты часто собраны криво, и если подавать в берт только premise или только hypothesis, то они всё равно неплохо классифицируются. Я бы проверил, так ли это в вашем случае. Если да, то нужно собирать более сложные и сбалансированные обучающие данные.
а это происходит потому что внутри класса есть какая то характерная структура у гипотезы которую модель учит вместо обучения собственно инференсу?
Да, идея в этом. Часто эти гипотезы создаются краудворкерами в задачах типа "придумайте одну правильную и одну неправильную подписи к этой картинке", и люди придумывают эти правильные и неправильные подписи по-разному - так, что часто можно догадаться, какая из них задумывалась как неправильная, даже не глядя на саму картинку.
Обсуждают сегодня