ML
у меня нумерикал аутпут, а в входных данных есть и нумерикал, и категорикал данные
допустим я хочу выкинуть несколько входных переменных, у которых большой коэффициент кореляции между собой
если у нас две переменных нумерикал то беру обычную кореляцию пирсона, если две категорикал - то chi square test, если одна категорикал и одна нумерикал то допустим еще какой-то тест
а как потом сравнивать между собой эти результаты, полученные из разных тестов/метрик?
Или же в случае входных данных разных типов не стоит использовать filter методы для уменьшения кол-ва входных переменных?
Результаты сравнивают по метрикам качества(тест выборке и кросс тесты). А на сколько Вы готовы потерять в качестве, что бы выиграть в скорости это вопрос к заказчику работы. Кто-то и 10% готов потерять, а кому то и 1% жалко.
Обсуждают сегодня