нужно выбирать для целого дерева, а не на сплите?
хз. наверное такой же параметр как и все. просто в лгбм есть параметр который отбирает фичи именно для дерева
представим что берем 50% фичей не на каждое дерево, а на сплит. по дефолту цифра другая но интуиция не поменяется если есть какой-то сильный признак, показываешь ли ты его в 50% сплитов или в 100% - погода не меняется, он так или иначе перетянет одеяло на себя и какая-то значительная доля сплитов будет по нему (простой пример: очень гранулярные фичи, скажем, таймсоемп, либо таргет в прогнозе временных рядов но с лагом) таким образом он затеняет остальные признаки и модель переобучается под него мало ища паттерны в других признаках. деревья становятся сильно скорректированными как если бы никакого сэмплирования подпрастранства не было. другая ситуация, 50% фичей отваливается для всего дерева со всеми его сплитами. половина деревьев в принципе не будут видеть этот сильный признак и ничего не будет их отвлекать от поиска паттернов в оставшихся. на выходе ансамбль с декоррелированнымм деревьями, хотя и та наша golden фича в половине деревьев будет играть большую роль —— декоррелированность необходима для большей генерализации: одно дерево перекошено (переобучено) в одну сторону, другое в другую, третье еще в одну, но в среднем они уже попадают в цель и нивелируют variance друг друга, делая ансамбль устойчивым к переобучению если они будут перекошены все в 1 и ту же сторону, такого эффекта не будет
Добрый день, так есть ли в catboost параметр, который отвечает за % входящих фичей для каждого дерева?
Обсуждают сегодня