Всем привет! Прочитала, что в h2o для реализации градиентного спуска

Question

Всем привет! Прочитала, что в h2o для реализации градиентного спуска

в нейронках используется Hogwild, те батч сайз всегда равен 1 и все апдейты к параметрам применяются сразу. Насколько я понимаю, это дает хорошее ускорение при распределенных вычислениях (не нужно лочить). Но насколько это оправданно с точки зрения эффективности обучения? Ведь батч сайз 1 значит, что апдейты очень шумные, плюс в самой статье про хогвилд его предлагается использовать для разреженных моделей, можно ли таковой считать сеть?

#database #programming #russian #software

0

17.02.2021

2 ответов

11 просмотров

Alisa M Автор вопроса

Дмитрий Симаков
Так фишка h2o именно в скорости обучения и инферен...

Сравниваю с bigdl интелеовским сейчас, инференс у h2o медленнее. Но обучение и правда намного быстрее. Вопрос в качестве получаемых моделей)

0

17.02.2021

Дмитрий Симаков · Accepted Answer

Так фишка h2o именно в скорости обучения и инференсе. Если сравнивать с каким-нибудь автоглюоном, который работает гораздо медленнее. По метрикам, если не ошибаюсь, у них сетка как раз не так чтобы круто работает. Сам так не пробовал учить. У меня обучение на табличках очень сильно зависит от размера батча. Часто модель просто не сходится с очень большим или очень маленьким. (агрегирование в среднее, естественно).

215 похожих чатов

Всем привет! Прочитала, что в h2o для реализации градиентного спуска

2 ответов

Похожие вопросы