Если я только у злоровых их медианой заменяю, то модель (лог.регрессия) работает на 100%. Если у ВСЕХ пациентов, то модель херню решает.
Вопрос: как вы думаете, с чем это может быть связанно?
Переобучается на значение медианы? Если у здоровых одно и то же, то модель это может словить.
какой медианой? По всем - и здоровым, и больным?
Если Вы строите модель, в которой несколько переменных и удалять пропущенные значения невыгодно, то можно применить разные стратегии, например, медиана по больным и здоровым, можно заменять пропущенные значения на основе моделей, посмотрите пакет mice И вот лекция с курсеры https://www.coursera.org/learn/missing-data/
Обсуждают сегодня