Хорошо, с моделями понятно, а данные мне этот способ не

Question

Хорошо, с моделями понятно, а данные мне этот способ не

поможет оценить? Скажем, вырожденный пример - добавляю колонку шума. Я ожидаю, что без неё модель будет лучше себя чувствовать, однако какая-то модель вдруг начинает работать лучше (положим, что данных у нас достаточно много) - как на такое реагировать? И обратный пример - я вот не знаю, какая колонка - случайный шум (но какая-то точно), я могу с помощью моделей понять где он?

#database #programming #russian #software

0

16.01.2021

7 ответов

13 просмотров

Дмитрий Симаков

Надо смотреть на импотанс этой переменной - если она каким-то образом важна, то да, что-то не то. Но пример, почему в такой ситуации может улучшиться качество - у бустингов есть параметр фиче фрекшн. Добавив колонку, рандомайзер при фиксированном сиде для построения дерева / текущего сплита выберет другую подбвыборку признаков. И так для каждого дерева. Итого финальный ансамбль будет чуть другим. И у него качество может отличаться. Как в плюс, так и в минус. Подобного эффекта можно добиться тупо поменяв сид или перемешав порядок признаков.

0

16.01.2021

Дмитрий Симаков

Дмитрий Симаков
Надо смотреть на импотанс этой переменной - если о...

С нейронками ещё сложнее. Там модель может совершенно по разному сходиться при разном размере фходного слоя. Поэтому добавив одну фичу можно что-то поломать. Даже если сама фича бесполезная. Или наоборот полезная. И надо перетюнивать архитектуру / оптимайзер / шедулер.

0

16.01.2021

Kirill Burovin

Дмитрий Симаков
С нейронками ещё сложнее. Там модель может соверш...

а на кагле еще любит ошибка сабмита вылазить когда на приват подменяется тестовый сет по той же причине

0

16.01.2021

Vlad Kostoglodov

Kirill Burovin
а на кагле еще любит ошибка сабмита вылазить когда...

Не так давно была забавная история, что ребята специально выбрасывали эксепшн, если скор недотягивал на тестовой части

0

16.01.2021

Kirill Burovin

Vlad Kostoglodov
Не так давно была забавная история, что ребята спе...

зачем? сабмит же просирается

0

16.01.2021

Vlad Kostoglodov

Kirill Burovin
зачем? сабмит же просирается

Пробинг прайвата

0

16.01.2021

Артём Глазунов · Accepted Answer

Самое простое - кросс-валидация с и без. Можно ещё посмотреть для интереса, какое качество чисто на данной колонке, если ооочень низкое, то тут подозрение. Но тут осторожней, потому что иногда по одному признаки не работают, а в паре, тройке вместе дают результат.

215 похожих чатов

Хорошо, с моделями понятно, а данные мне этот способ не

7 ответов

Похожие вопросы