списки словарей
data_sample = [{'event_type': 1}, ..., {'event_type': 2}]
И тут получается есть много категориальных фичей, таких как 'event_type' на примере ниже.
Вопрос, как выбирать/агрегировать эту фичу среди словарей? Мб кто-то сталкивался с подобным
Сейчас среди значений для одного списка выбираю наиболее частое по статистике обучающей выборки
А порядок в списке важен или нет? Длина списков одинаковая или разная? В целом, ничего не мешает включить в признаки много разных способов агрегации: наиболее частотное значение, вектор частот разных значений, и т.п.
Обсуждают сегодня