все строчки, где есть NA, то у меня остается меньше половины строчек (из 400 остаются где-то 150). Вот я и хочу с помощью специальных методов попробовать заполнить эти NA данными. А чтобы выбрать метод, мне нужно посмотреть, как все столбцы между собой коррелированы?
Смотрите: при превращении строки в число Р присваивает строке фактически ее порядковый номер. Петя был первым, станет 1, потом ещё Петя, он все равно 1, Вася был третьим, станет 2. Какой аналитический смысл у этих данных? Могу ошибиться, но никакого. Тем более странно смотреть корреляции имени и какой-либо количественной переменной, температуры например. Вот окажется, что корреляция есть. Чем раньше встретилось имя, тем температура больше, допустим. О чем это говорит? О том, что при желании найти зависимости можно где угодно :) Я это к чему - коррелировать строки/факторы - неблагодарное дело
А какие данные у вас? Что в основном пропущено?
Обсуждают сегодня