поиска максимально надёжного прогноза небольших категорий...
Пример - мне надо спрогнозировать, что человек слушает, например, рэпчик. На основании нескольких десятков не особо-то предиктивных на музыку фичей. У меня есть, например, 10 тысяч человек, из которых рэпчик слушают 700 (7%). Мне надо найти какую-то такую подгруппу, в которой этих людей было бы хотя бы не меньше 20%. Предикторы в основном тоже бинарные. Понятное дело, что достаточно легко получить прогноз вида "младше 30 -> слушает рэпчик", но мне хотелось бы находить какие-то более хитрые правила.
Вроде бы большинство ML-алгоритмов заточены именно под максимально правдоподобный прогноз и если им что-то такое подсовывать, то они мгновенно выдают результат, что надёжнее всего прогнозировать, что вообще никто не слушает рэпчик... Я сейчас подсовываю рандомно сгенерённые выборки, где слушающих и не слушающих рэпчик по 50%... Ещё пытался ассоциативные правила строить через пакет arules. Вот думаю, может есть какие-то ещё подходы?
Запустите бустинг на низких деревьях.
Ну спроси что он ест. Если говно, то значит слушает репчик
Обсуждают сегодня