одна из переменных имеет 80% значений na, а остальные 20% довольно сильно замусоренны (то символы, то цифры, то все вместе и даже разной длины), то стоит пытаться приводить ее в норму или просто дропнуть? Что за переменная установить не удалось. Сама задача на классификацию (да/нет), всего тренинговый сет 200 тыс наблюдений, около 35 переменных.
а исходный датасет шире, чем 35 признаков, или 35 признаков это все, что есть?
Обсуждают сегодня