Какое-то отсутствие ablation study...
Почему не происходит коллапса?
Ещё спроси почему нейросети работают)
Ну блин, ну можно же хотя бы запилить с проекцией и без неё. С ema и без ema.
Нейросети не работают так-то)))). Но я могу сказать, что нелинейная функция может апроксимировать любую функцию, а производная ведет в локальный минимум, соответственно, ожидаемо результат улучшается.
Проекция вроде известная штука, ещё с simclr
Не, я интуитивно понимаю, что фичи для сравнения(которые должны игнорить аугментации), не равны фичам изображения, которые лучше использовать для претрейна, но ablation study, который они сделали указывает на то, что чем больше проекция, тем лучше результат, почему решили не увеличивать дальше? У меня есть два варианта, или при большей проекции у тебя происходит колапс из-за более насыщенных градиентов, или они тупо забили и не проверили.
проверь)) расскажешь ) либо кстати того не требует как бы стандарт. Время то не бесконечное. Уложились в какой-то набор экспериментов, далее берите дерзайте научный мир.
Учитывая сколько они тестят различные параметры, то думаю, это было бы не сложно. Уже посмотрел, 512TPU на 8 часов стоит 3000 евро, учитывая, что там псевдокод на джаксе, то надо будет пара попыток + сравнение с начальным вариантом -> пара десятков к евро.
deep для майнеров )
Обсуждают сегодня