Другого параметра нет. А есть какая-то причина, почему подпространство фичей

нужно выбирать для целого дерева, а не на сплите?

3 ответов

16 просмотров

хз. наверное такой же параметр как и все. просто в лгбм есть параметр который отбирает фичи именно для дерева

представим что берем 50% фичей не на каждое дерево, а на сплит. по дефолту цифра другая но интуиция не поменяется если есть какой-то сильный признак, показываешь ли ты его в 50% сплитов или в 100% - погода не меняется, он так или иначе перетянет одеяло на себя и какая-то значительная доля сплитов будет по нему (простой пример: очень гранулярные фичи, скажем, таймсоемп, либо таргет в прогнозе временных рядов но с лагом) таким образом он затеняет остальные признаки и модель переобучается под него мало ища паттерны в других признаках. деревья становятся сильно скорректированными как если бы никакого сэмплирования подпрастранства не было. другая ситуация, 50% фичей отваливается для всего дерева со всеми его сплитами. половина деревьев в принципе не будут видеть этот сильный признак и ничего не будет их отвлекать от поиска паттернов в оставшихся. на выходе ансамбль с декоррелированнымм деревьями, хотя и та наша golden фича в половине деревьев будет играть большую роль —— декоррелированность необходима для большей генерализации: одно дерево перекошено (переобучено) в одну сторону, другое в другую, третье еще в одну, но в среднем они уже попадают в цель и нивелируют variance друг друга, делая ансамбль устойчивым к переобучению если они будут перекошены все в 1 и ту же сторону, такого эффекта не будет

BOGDAN
представим что берем 50% фичей не на каждое дерево...

Добрый день, так есть ли в catboost параметр, который отвечает за % входящих фичей для каждого дерева?

Похожие вопросы

Обсуждают сегодня

Hi! Could you please upvote my new notebook? thanks a lot. https://www.kaggle.com/code/melissamonfared/anime-character-generation-dsgan-gan
məru
4
upvote plz https://www.kaggle.com/code/bassetkerouche/swapping-face?scriptVersionId=207300096
benkerrouche Statoinary
1
-- Привет всем. -- Есть csv, проблема в том что он содержит очень много повторов по столбцам и по строкам. -- Решил перекинуть это в базу данных, чтобы было проще. Но я не ша...
Oleg Ivanov
1
Как считаете - вопрос на собесе: «Как быстрее всего запустить ec2 машину в aws (в чистом аккаунте) и показать вывод от любой команды с нее» не очень ли сложный для условного м...
Sergey
50
Господа, у меня вопрос. Что вообще такое этот ваш data science и data scientists? А то гуглю, а мне какую-то расплывчатую фигню говорят.
Inkosta
44
Hi could you please help me with my two new projects? https://www.kaggle.com/code/hesankazemnia/rice-image-classification-cnn-pytorch https://www.kaggle.com/code/hesankazemnia...
Hesan
6
Исходя из ваших комментариев, получается, что чтобы получить марты в CH из данных в PG, неправильно тянуть сырые данные в CH и там их обрабатывать, лепить справочники и джойни...
unhingedlunatic
42
hi, Can you upvote? https://www.kaggle.com/code/durjoychandrapaul/rag-q-a-system-by-langchain-huggingface-for-pdf?scriptVersionId=204704280
A
1
Could you upvote and comment please? https://www.kaggle.com/code/tatianapetrushkevich/beginner-images https://www.kaggle.com/code/tatianapetrushkevich/python-for-beginners1 ...
Tazziyana
7
Коллеги, приветствую! Появилась не совсем тривиальная задача реализовать в nginx редирект HTTPS —> HTTP. Да, именно так, а не наоборот. Мы разрабатываем embedded устройство,...
Никита
24
Карта сайта