ну тебе надо в датафрейме df1 оставить только те строки, у которых колонка uid присутствует в колонке _c0 некого другого df2, так?
Там только выгрузка из csv с одной колонкой (других в csv нет) без header. Вижу, при ошибке её spark автоматом обозвал _c0
ну так джоин всё равно поможет в этой ситуации
.filter("uid").join(df.select("_c0").dropDuplicates(), $"uid" === $"_c0", "left").drop("_c0")" Так?
ну да, только без фильтра в начале
Ура! Отработало если out.show(false) сделать (правда 20 верхних строк только показывает). Но при записи в фаил пишет: CSV data source does not support array<string> data type. ;
ну я уж не знаю какие колонки у вас там типа array, это лучше самому разбираться или действительно сходить в @hadoopusers
Привет. На самом деле странно отрабатывает. В файлике 700 номеров, а на вывод выходить с десяток тысяч. Что-то не то
ну значит неправильно джоин написали, погуглите почитайте как он работает
Там dropDublicates() просто удаляет после Join совпадения по видимому.. Не читал пока про Join.. Отхожу от стресса жизненного.. Еле еле что-то воспринимаю.. Но разберусь, уверен.
ну так его надо до джоина применить
Обсуждают сегодня