в нейронках используется Hogwild, те батч сайз всегда равен 1 и все апдейты к параметрам применяются сразу. Насколько я понимаю, это дает хорошее ускорение при распределенных вычислениях (не нужно лочить). Но насколько это оправданно с точки зрения эффективности обучения? Ведь батч сайз 1 значит, что апдейты очень шумные, плюс в самой статье про хогвилд его предлагается использовать для разреженных моделей, можно ли таковой считать сеть?
Так фишка h2o именно в скорости обучения и инференсе. Если сравнивать с каким-нибудь автоглюоном, который работает гораздо медленнее. По метрикам, если не ошибаюсь, у них сетка как раз не так чтобы круто работает. Сам так не пробовал учить. У меня обучение на табличках очень сильно зависит от размера батча. Часто модель просто не сходится с очень большим или очень маленьким. (агрегирование в среднее, естественно).
Сравниваю с bigdl интелеовским сейчас, инференс у h2o медленнее. Но обучение и правда намного быстрее. Вопрос в качестве получаемых моделей)
Обсуждают сегодня