батчах. Сейчас попробовал его на небольшом датасете, ради теста специально разделив его на части. В цикле три раза подряд применил partial_fit для каждой части сета. Потом попробовал fit на всем датасете. Результаты обучения на батчах всегда получаются хуже, чем на всем датасете (сравнивал результаты с фиксированным random_state). Так и должно быть? Или надо как-то по-хитрому применять partial_fit?
1) ты сравнивал результаты на какой то отложенной выборке? 2) по общей логике так и должно быть. у тебя по сути оптимизируется лосс не по всем твоим данным, а только по части. Если ты будешь делить данные на разные партиции очень много раз и прогонять на каждой партиции итерацию обучения, то при большом числе итераций ты получишь схожие результаты (и в случае SGDClassifier'а это будет синонимично обучению однослойного перцептрона - простейшей нейронки - на батчах)
Обсуждают сегодня