распределения их по следующим категориям:
constants = []
continuous = []
dummies = []
discretes = []
вот пока всё, что мне удалось придумать (скрин). Определять по типу значений из набора int, float нельзя, т.к. могут быть дискретные числа аля [1.0, 2.0, ...]. Также непонятно как отличать дискретные от категориальных признаков, если последние представлены числами. Наверное, стоит смотреть на количество уникальных элементов столбца, но непонятно сколько их должно быть, чтобы из категориального он превратился в дискретный. Есть какие то идеи по этому поводу и по поводу метода в целом?
У меня есть идеи. Но надо понимать конечную цель. Я вижу смысл разделять данные датасета на части только при неравном количестве данных, для последующей балансировки. Для этой цели?
я тренирую автоенкодер, поэтому, что было на входе будет и на выходе. Пишу автоматическую предобработку для обучения на любом датасете. Для предобработки нужно знать с чем ты имеешь дело
Обсуждают сегодня