засунул все оценки по фильму.
Мне нужно подсчитать сколько раз встречалась оценка по данному фильму, т.е оценка 1 - 5 раз, оценка 2 - 3 раза и т.д.
Я написал для этого кастомную UDF, но когда ее объявляю, то запрос крашится.
Если делать UDF типа: return x + 10, то все норм. Стоит сделать UDF больше по вычислениям, то все ломается.
Все таки проблема, что я использую PySpark, а не ванильную Scala?
У pyspark по сравнению со скалой основная _возможная_ (но не обязательная) проблема - это быстродействие. А тут ошибка на первый взгляд похожа на недостаток памяти на экзекуторах. ;)
Обсуждают сегодня