Пробовали BYOL?

Нейросети не работают так-то)))). Но я могу сказать, что нелинейная функция может апроксимировать любую функцию, а производная ведет в локальный минимум, соответственно, ожидаемо результат улучшается.

0

15.03.2021

Evgenii Zheltonozhskii🇮🇱

Vadim Chashechnikov
Ну блин, ну можно же хотя бы запилить с проекцией ...

Проекция вроде известная штука, ещё с simclr

0

15.03.2021

Vadim Chashechnikov Автор вопроса

Evgenii Zheltonozhskii🇮🇱
Проекция вроде известная штука, ещё с simclr

Не, я интуитивно понимаю, что фичи для сравнения(которые должны игнорить аугментации), не равны фичам изображения, которые лучше использовать для претрейна, но ablation study, который они сделали указывает на то, что чем больше проекция, тем лучше результат, почему решили не увеличивать дальше? У меня есть два варианта, или при большей проекции у тебя происходит колапс из-за более насыщенных градиентов, или они тупо забили и не проверили.

0

15.03.2021

Ilya

Vadim Chashechnikov
Не, я интуитивно понимаю, что фичи для сравнения(к...

проверь)) расскажешь ) либо кстати того не требует как бы стандарт. Время то не бесконечное. Уложились в какой-то набор экспериментов, далее берите дерзайте научный мир.

0

15.03.2021

Vadim Chashechnikov Автор вопроса

Ilya
проверь)) расскажешь ) либо кстати того не требует...

Учитывая сколько они тестят различные параметры, то думаю, это было бы не сложно. Уже посмотрел, 512TPU на 8 часов стоит 3000 евро, учитывая, что там псевдокод на джаксе, то надо будет пара попыток + сравнение с начальным вариантом -> пара десятков к евро.

0

15.03.2021

Ilya

Vadim Chashechnikov
Учитывая сколько они тестят различные параметры, т...

deep для майнеров )

0

15.03.2021

Evgenii Zheltonozhskii🇮🇱 · Accepted Answer

Evgenii Zheltonozhskii🇮🇱

Vadim Chashechnikov
Какое-то отсутствие ablation study...

М?

0

15.03.2021

Похожие чаты

Пробовали BYOL?

11 ответов

Похожие вопросы