Привет! Вот интересно мне - в анализе данных есть разные

Question

std::divconq

Привет! Вот интересно мне - в анализе данных есть разные

методы заполнения пустых значений - иногда удаляем, иногда приводим к среднему. А я тут посмотрел лекцию knn - она же этим и занимается. Тогда почему мы вообще приводим к среднему или удаляем если можно knn сделать?

Вот так мне ответил опытный датасаентист:
Потому что NaN может кодировать специальное значение

И стало еще непонятнее… Что почитать?
Например эта статья - об этом?
https://frontender.info/nan-is-not-a-not-a-number/

#database #programming #russian #software

0

19.05.2022

2 ответов

41 просмотр

Eldar

Хотя бы потому, что kNN может быть оверкиллом как раз в тех ситуациях, когда можно вполне обойтись средним, или попросту ненужным, если колонку можно просто дропнуть. Согласен со словами выше, imputing в целом о том, насколько хорошо вы понимаете данные/домен

0

19.05.2022

Антон Дорохов · Accepted Answer

для того что бы решить что делать с нанами в конкретной задаче - нужно рассуждать логически и без отрыва от задачи и данных. По моей практике (за последнее время) в реальных задачах нанов быть либо не должно (иначе это косяк бизнес процесса), либо колонка с нанами вообще не нужна, либо строки с нанами можно смело удалять

215 похожих чатов

Привет! Вот интересно мне - в анализе данных есть разные

2 ответов

Похожие вопросы