преимущественно не имеют значений в задаче классификации? Под преимущественно не имеют значений имею ввиду что 80-90% значений пустые, но которые заполнены несут потенциально полезную инфу. Заполнять всякими средними и медианами может быть неэффективно, каких-то готовых решений по этой задаче не видел
замените все наны одним определенным значением. В рамках одного признака, разумеется
Превратить колонку в 2, одну из них сделать true|false, пустые значения во второй забить чем-то типа нулей
вот тут момент возникает связанный с интерпретацией этих фичей после обучения. Если мы все пропущенные признаки забили условными 0, то как адекватно интерпретировать вес при этом признаке?
а что это даст не очень понимаю?
ну тут много вариантов что может пойти не так) например если тип данных инт и вы заполните 80% нанов каким либо интом то их вес может привести к некорректным результатам. Сначала бы стату посмотреть по реальным данным
Да, я поэтому и спрашиваю, потому что с этими признаками сложно работать нормально. Проблема в том, что никаких других данных по этим признакам нет, неясно как стату в таком случае считать
Если никаких других данных нет - это просто пустая строка без признаков?
Обсуждают сегодня