select не сделаешь все лишние колонки ездят с тобой по датафрейму в спарке?
Ну это же не проблема до момента исполнения ?
Да, но если они бегают по шаффлам - то уже проблема
А почему это проблема?
Шаффлы могут быть очень дорогими и дорогими, очевидно.
Ага, но я все равно пока не понимаю, шафл большого кол-ва мета информации?
Не мета, если интерактив - то тащатся все колонки, как SELECT *
А, теперь понял. Спасибо) А разве семплинг данных не помогает с этой проблемой?
Ну семплинга Спарк, я думаю, не делает. Это сложная задача, которую кажется напиши решить в общем виде
Зависит от DataSource, умеет ли он делать column pruning. Если умеет, то после парсинга запроса передаётся required schema, которая может быть пустой. Определяется схема очень просто - прослеживается Attribute Reference до самого последнего листа, как правило, это какая-то Relation
Обсуждают сегодня