списки словарей
                  
                  
                  data_sample = [{'event_type': 1}, ..., {'event_type': 2}]
                  
                  
                  И тут получается есть много категориальных фичей, таких как 'event_type' на примере ниже.
                  
                  
                  Вопрос, как выбирать/агрегировать эту фичу среди словарей? Мб кто-то сталкивался с подобным
                  
                  
                  Сейчас среди значений для одного списка выбираю наиболее частое по статистике обучающей выборки
                  
                  
                
А порядок в списке важен или нет? Длина списков одинаковая или разная? В целом, ничего не мешает включить в признаки много разных способов агрегации: наиболее частотное значение, вектор частот разных значений, и т.п.
Обсуждают сегодня