эпохи начинает выдавать nan, как можно фиксить при условии что градиент клиппер уже прикручен?
Пробовал стартовый лернинг рейт меньше делать - лосс хуже к минимуму сходиться.
Увеличение размера батча тоже не помогло.
Если просто есть батч, на котором все становится плохо - скипать конкретный батч)
Проверить достаточно ли могуч клепатель, проверить тензора на инфы и наны
Как проверить могучесть клиппера?
Клепать посильнее и посмотреть на результат, например. Может там градиенты множатся на 0.99 в качестве "клиппинга"
Поставил каунтер на колличество батчей и с определенного момента чисто начинает расти. Так что это все-таки градиентный взрыв
Я пробовал clip_value как гиперепараметр оптимизировать оптуной, но пока он либо отсекает почти все и моделька не обучается либо просто не работает
Начать с проверки в какой операции вылазят наны, и логгинга весов/градиентов
Как это сделать по-умному? Потому что мне на ум пришло только logging.info(*args) в каждый слой запихать
Хз, я прямо в тензорборде нормы рисую, а для проверки какая операция нан дала у торча есть встроенный инструмент есть
Спасибо 🙏 Пойду разбираться
Обсуждают сегодня