методы заполнения пустых значений - иногда удаляем, иногда приводим к среднему. А я тут посмотрел лекцию knn - она же этим и занимается. Тогда почему мы вообще приводим к среднему или удаляем если можно knn сделать?
Вот так мне ответил опытный датасаентист:
Потому что NaN может кодировать специальное значение
И стало еще непонятнее… Что почитать?
Например эта статья - об этом?
https://frontender.info/nan-is-not-a-not-a-number/
для того что бы решить что делать с нанами в конкретной задаче - нужно рассуждать логически и без отрыва от задачи и данных. По моей практике (за последнее время) в реальных задачах нанов быть либо не должно (иначе это косяк бизнес процесса), либо колонка с нанами вообще не нужна, либо строки с нанами можно смело удалять
Хотя бы потому, что kNN может быть оверкиллом как раз в тех ситуациях, когда можно вполне обойтись средним, или попросту ненужным, если колонку можно просто дропнуть. Согласен со словами выше, imputing в целом о том, насколько хорошо вы понимаете данные/домен
Обсуждают сегодня