вопросу?
Есть например 3 типа лиц: фл, ип и юл. Есть для них дата рождения, соответственно могу посчитать возраст. Однако если для ип и фл всё понятно, то для юл это дата создания компании. Понятно сравнивать возраст фл/ип и юл некорректно. Можно сделать новую бинарную переменную (является юл или нет), но чем тогда заменять значения возраста для юл в основной переменной возраст? -1 или 0 порушат распределение, ведь у лиц фл и ип возраст начинается от 18. Целевая задача сделать кластеризацию (без учителя) лиц по уровню дохода. Что бы кто мог посоветовать?
Может применить масштабирование? И возраст компаний и возраст физиков привести к шкале 0...1
Да, но это хотел делать после решения вопроса с возрастом для юл, иначе же условно 0 лет будет 0 на шкале. В итоге все ИП и фл ощутимо сместятся на шкале вправо
Не обязательно. Можно же сделать age / (max(age) - min(age)). И то же самое для компаний
Отдельно для каждого типа лиц? Т.е. сделать 3 новых переменных по каждому? Ведь нельзя же шкалировать по разным основаниям в одной переменной
Ну да. То есть для физиков получится к примеру age / (65-18), а для юриков age / (20 - 0).
Спасибо. Тогда продолжая мысль будет 3 переменные для каждого лица. И тогда скажем для поля юл для юлов будут шкалированные значения, а для ИП и фл в этом поле тогда проставить 0. Но что бы не попортить настоящий ноль перед этим (до шкалирования) сделать +1 ко всем возрастам. Тогда на шкале по идее 0 (для ИП и фл) останется нулем, а минимальное значение (пусть даже 0) для юл будет уже хоть каким-то положительным. Вроде принципиальных противоречий при таком подходе не возникает: порядок шкалы сохраняется, отличие "искусственного" нуля от настоящего тоже. Так понимаю? Или это велосипед, коллеги?
Обсуждают сегодня