фильма типа ['мультик', 'боевик', 'для семьи'] переменной длины и есть список всех жанров длины n. как мне эффективно перекодировать эту колонку в n колонок с единицами, где жанр совпал с именем колонки и нулем иначе?
А вот вроде прям этот же вопрос обсуждается https://stackoverflow.com/questions/65881710/pyspark-one-hot-encoding
Да, сделал в итоге через explode+collect_set
может проще через onehotencoder сделать из spark.ml
Обсуждают сегодня