поможет оценить? Скажем, вырожденный пример - добавляю колонку шума. Я ожидаю, что без неё модель будет лучше себя чувствовать, однако какая-то модель вдруг начинает работать лучше (положим, что данных у нас достаточно много) - как на такое реагировать? И обратный пример - я вот не знаю, какая колонка - случайный шум (но какая-то точно), я могу с помощью моделей понять где он?
Самое простое - кросс-валидация с и без. Можно ещё посмотреть для интереса, какое качество чисто на данной колонке, если ооочень низкое, то тут подозрение. Но тут осторожней, потому что иногда по одному признаки не работают, а в паре, тройке вместе дают результат.
Надо смотреть на импотанс этой переменной - если она каким-то образом важна, то да, что-то не то. Но пример, почему в такой ситуации может улучшиться качество - у бустингов есть параметр фиче фрекшн. Добавив колонку, рандомайзер при фиксированном сиде для построения дерева / текущего сплита выберет другую подбвыборку признаков. И так для каждого дерева. Итого финальный ансамбль будет чуть другим. И у него качество может отличаться. Как в плюс, так и в минус. Подобного эффекта можно добиться тупо поменяв сид или перемешав порядок признаков.
С нейронками ещё сложнее. Там модель может совершенно по разному сходиться при разном размере фходного слоя. Поэтому добавив одну фичу можно что-то поломать. Даже если сама фича бесполезная. Или наоборот полезная. И надо перетюнивать архитектуру / оптимайзер / шедулер.
а на кагле еще любит ошибка сабмита вылазить когда на приват подменяется тестовый сет по той же причине
Не так давно была забавная история, что ребята специально выбрасывали эксепшн, если скор недотягивал на тестовой части
зачем? сабмит же просирается
Пробинг прайвата
Обсуждают сегодня