это случайно не out of bag validation? когда выборка сэмплируется с повторением, на сэмпле размером с исходную выборку обучается алгоритм, а на том, что в сэмпл не вошло, алго...
А что за модель? Вообще апсэмплинг редких классов до сбалансированной модели — почти гарантированно плохая генерализация на этих редких классах.
так а ты не пробовал хотя бы выяснить, из-за чего у тебя пустой датафрейм: ошибка или пустой json? пока вообще неочевидно.
ну пожалуйста, используйте гугл, там есть 10 вариантов как минимум: https://www.google.ru/search?q=r+filter+vector&oq=r+filter+&aqs=chrome.1.69i57j0l5.5454j0j7&sourceid=chrome...
Потому что "брать некоторую магическую долю от выборки" звучит как подозрительная хрень? Нет, с тобой всё хорошо, это действительно именно так звучит.
Ну и на всякий случай: так работает dplyr::filter, dplyr точно загружен? Работающий pipe operator — не показатель, он много где импротируется.
Спарк — это всегда __ооооооочень__ долго, независимо от типов колонок. Или мне просто не повезло?
Подожди, у тебя .99 на upsampled, не на исходном распределении?
Так у тебя ошибки в 0.1 и 10 — это усреднённые по кросс-валидации?
студент приносит картинку и говорит "я так вижу"?
как их можно забыть?