Пишу метод для автоматического определения типа столбца датасета и последующего

Question

Пишу метод для автоматического определения типа столбца датасета и последующего

распределения их по следующим категориям:

constants = []
continuous = []
dummies = []
discretes = []
вот пока всё, что мне удалось придумать (скрин). Определять по типу значений из набора int, float нельзя, т.к. могут быть дискретные числа аля [1.0, 2.0, ...]. Также непонятно как отличать дискретные от категориальных признаков, если последние представлены числами. Наверное, стоит смотреть на количество уникальных элементов столбца, но непонятно сколько их должно быть, чтобы из категориального он превратился в дискретный. Есть какие то идеи по этому поводу и по поводу метода в целом?

0

02.05.2022

2 ответов

50 просмотров

Сергей Васильев Автор вопроса

Sергей
У меня есть идеи. Но надо понимать конечную цель. ...

я тренирую автоенкодер, поэтому, что было на входе будет и на выходе. Пишу автоматическую предобработку для обучения на любом датасете. Для предобработки нужно знать с чем ты имеешь дело

0

02.05.2022

Sергей · Accepted Answer

Sергей

У меня есть идеи. Но надо понимать конечную цель. Я вижу смысл разделять данные датасета на части только при неравном количестве данных, для последующей балансировки. Для этой цели?

0

02.05.2022

Похожие чаты

Пишу метод для автоматического определения типа столбца датасета и последующего

2 ответов

Похожие вопросы