Azure Datalake Gen2. Причем часть картинок лежат в самом контейнере, а часть - во вложенных папках, типа
container_name/kek.jpg
container _name/2023/06/25/lol.jpg
В датабриксе включен Unity Catalog.
Я пытаюсь создать Databricks Volume к контейнеру с картинками. В итоге volume видит файлы, которые лежат в самом контейнере, но не видит подпапки и файлы, которые в них лежат.
Я вроде как понимаю, что для картинок не работает hierarchical storage, и все файлы там хранятся как flat, но блин, как-то же должно оно работать? Не может же быть такого, что нельзя достучаться до файлов, которые лежат не в корне контейнера
да у всех вложенные папки есть, лично по себе скажу, все нормально работает..
Сразу заработало, или вы fs.ls делали?
Без кластера Access Mode: Single User возможно не будет работать. Там для Shared надо тоже настройки смотреть.
Мб кому-то будет полезно, решил проблему. Решение - не создавать volume на корень контейнера, а на каждую папку отдельно. Когда создал вольюм на container_name/2023 - все заработало
а можете кратко написать в чем профит использования volume'ов? Почему не писать и читать с фс?
Для non-tabular данных отлично подходят. Можно и в фс, но вольюмы работают с юнити каталогом, то есть не надо колдовать с секретами и пермишшенами - можете использовать managed identities
https://www.databricks.com/blog/announcing-public-preview-volumes-databricks-unity-catalog
У нас например десяток воркспейсов в датабриксе, меня эти бесконечные сервис принципалы и токены заколебали уже
А зачем так много воркспейсов? Каждой команде свой?
По бизнес-доменам, да. Пытаемся в дата меш)
Обсуждают сегодня