В первом же эксперименте с самой простой архитектурой 1д сверточной сети - чудовищное переобучение. 7 каналов ( по числу измеряемых сигналов). Ряды режу по 30 точек. Данных получается - от 30к до 700к. А бустинги неплохо справляются. Но была надежда улучшить.
против переобучения есть тысяча и один прием. Надо втаскивать
Ну да, я их пробую, разумеется. Но поскольку переобучение очень сильное ( типа 85 accuracy на трейне и 65-70 на тесте) с первой эпохи, и дальше только хуже, я подозреваю, что есть принципиальные проблемы. До этого я с глубокими сетями работала только в вижн, с рядами только начала.
я бы не стал полагаться на accuracy
у меня с lstm такая же ерунда, ставлю в скрытый слой один нейрон вообще, на трейне 0.08, на тесте 3.5 mse так и не придумал как решить вопрос думаю уволиться да пойти землю копать
Я сталкивался с таким. Выбираешь целевую метрику отличную от accuracy, ставишь lr очень очень маленький, и смотришь что можно получить
ну у меня регрессия, везде mse ставил lr до 1e-5, попробую конечно еще понизить
Обсуждают сегодня