фичами
По одной записи может быть заполнено от 5 до 100 фичей
Надо на основании заполненности этих фичей и схожести факторов как-то поделить выборку на группы.
В направлении каких алгоритмов стоит думать?
Ну у вас типичная задача кластеризации же. Начните с простого: как бы вы сами разбили все это добро на классы? Попробуйте потом k-means, деревья.
Обсуждают сегодня