Похожие чаты

Пишу метод для автоматического определения типа столбца датасета и последующего

распределения их по следующим категориям:

constants = []
continuous = []
dummies = []
discretes = []
вот пока всё, что мне удалось придумать (скрин). Определять по типу значений из набора int, float нельзя, т.к. могут быть дискретные числа аля [1.0, 2.0, ...]. Также непонятно как отличать дискретные от категориальных признаков, если последние представлены числами. Наверное, стоит смотреть на количество уникальных элементов столбца, но непонятно сколько их должно быть, чтобы из категориального он превратился в дискретный. Есть какие то идеи по этому поводу и по поводу метода в целом?

2 ответов

25 просмотров

У меня есть идеи. Но надо понимать конечную цель. Я вижу смысл разделять данные датасета на части только при неравном количестве данных, для последующей балансировки. Для этой цели?

Сергей-Васильев Автор вопроса
Sергей
У меня есть идеи. Но надо понимать конечную цель. ...

я тренирую автоенкодер, поэтому, что было на входе будет и на выходе. Пишу автоматическую предобработку для обучения на любом датасете. Для предобработки нужно знать с чем ты имеешь дело

Похожие вопросы

Обсуждают сегодня

а через ESC-код ?
Alexey Kulakov
29
30500 за редактор? )
Владимир
47
Чёт не понял, я ж правильной функцией воспользовался чтобы вывести отладочную информацию? но что-то она не ловится
notme
18
У меня есть функция где происходит это: write_bit(buffer, 1); write_bit(buffer, 0); write_bit(buffer, 1); write_bit(buffer, 1); write_bit(buffer, 1); w...
~
13
any reference of this implementation?
BitBuddha
29
Ⓐrtto, [4/23/24 7:02 PM] Please explain more fully how it is not working exactly, and what are the steps you are taking, and what error messages come or what happens. Ⓐrtto, ...
Ezza Kezza
2
sounds like people have lost their kaspa on tradeogre... does this mean tradeogre not trustworthy?
Ezza Kezza
15
Страшнейшая правда про списки ЦБ. С первых дней жизни P2P сферы, молодые человеки, начитавшись законодательной базы и "внутренних" документов, решили, что им противостоит сер...
Foxcool
3
Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
So much speculation in the last week. So much volatility in price. This is because Hedera has a GC that isn't using the network it's governing. Why aren't people asking why a...
Summit Seeker R
9
Карта сайта