только, что одно из значений лучше или хуже одного из других), когда не все значения соотнесены друг с другом?
Например,
Х:
id x1 x2 x3
1 14 53 56
2 35 45 34
3 65 34 14
y:
id value
1 <3
2 >1
3 >1 (пропуск, ожидается отношение 3 к 2)
Требуется ранжировать y от 1 до n.
В данном примере понятно, что сэмпл 1 самый худший, ему присваиваем ранг 3. Но неизвестно (пропущено) соотношение сэмпла 2 и 3, чтобы определить, какому сэмплу присвоить ранг 1, а какому ранг 2.
Выкидывать два этих сэмпла не хочется, хочется по X восстановить пропущенное соотношение.
Генеририть для каждого пропуска новый датасет, где будут только сэмплы с отношением к пропущенному id.. Например, нужно восстановить отношение 2 к 3. Обучаем бинарный классификатор (0 - больше, 1 - меньше) на выборке с функциями 1 к 3, 4 к 3, 5 к 3 и тд.. и предсказываем пропущенное соотношение 2 к 3.
Или есть способ поэлегантнее «в одну строку»?
см target encoding
Спасибо, гляну
Обсуждают сегодня