Знатоки Databricks, прошу помощи. У нас есть контейнер с картинками в

Azure Datalake Gen2. Причем часть картинок лежат в самом контейнере, а часть - во вложенных папках, типа

container_name/kek.jpg

container _name/2023/06/25/lol.jpg

В датабриксе включен Unity Catalog.
Я пытаюсь создать Databricks Volume к контейнеру с картинками. В итоге volume видит файлы, которые лежат в самом контейнере, но не видит подпапки и файлы, которые в них лежат.

Я вроде как понимаю, что для картинок не работает hierarchical storage, и все файлы там хранятся как flat, но блин, как-то же должно оно работать? Не может же быть такого, что нельзя достучаться до файлов, которые лежат не в корне контейнера

11 ответов

15 просмотров

да у всех вложенные папки есть, лично по себе скажу, все нормально работает..

Евгений- Автор вопроса

Сразу заработало, или вы fs.ls делали?

Евгений
Сразу заработало, или вы fs.ls делали?

Без кластера Access Mode: Single User возможно не будет работать. Там для Shared надо тоже настройки смотреть.

Евгений- Автор вопроса

Мб кому-то будет полезно, решил проблему. Решение - не создавать volume на корень контейнера, а на каждую папку отдельно. Когда создал вольюм на container_name/2023 - все заработало

Евгений
Мб кому-то будет полезно, решил проблему. Решение ...

а можете кратко написать в чем профит использования volume'ов? Почему не писать и читать с фс?

Евгений- Автор вопроса
Vitaly Pismarev
а можете кратко написать в чем профит использовани...

Для non-tabular данных отлично подходят. Можно и в фс, но вольюмы работают с юнити каталогом, то есть не надо колдовать с секретами и пермишшенами - можете использовать managed identities

Евгений- Автор вопроса
Евгений
Для non-tabular данных отлично подходят. Можно и в...

https://www.databricks.com/blog/announcing-public-preview-volumes-databricks-unity-catalog

Евгений- Автор вопроса
Евгений
Для non-tabular данных отлично подходят. Можно и в...

У нас например десяток воркспейсов в датабриксе, меня эти бесконечные сервис принципалы и токены заколебали уже

Евгений
У нас например десяток воркспейсов в датабриксе, м...

А зачем так много воркспейсов? Каждой команде свой?

Евгений- Автор вопроса
Vitaly Pismarev
А зачем так много воркспейсов? Каждой команде свой...

По бизнес-доменам, да. Пытаемся в дата меш)

Похожие вопросы

Обсуждают сегодня

Это может быть все-таки не флудвейт? у меня ботфазер принимает изменения и отображает даже что они изменились, на видео видно что он прислал якобы уже измененное описание, н...
OVERLINK
13
всем привет помогите пожалуйста используя CDN (GCP) у игроков из вьетнама загружается конфиг (размер 999 bytes) загружается 5 и более минут н а других CDN сервисах такой пробл...
Andrew Krw.
1
Добрый день. Мне посоветовали обратиться к вам в чат за помощью. Ситуация описана на скрине. Как мне сказали, мне на бота навесили флудвейт. Есть ли возможность снять его ра...
OVERLINK
7
Просто по очереди выпиливаешь на ручной маппинг? По методу за раз
Andrii Kurdiumov
7
И? Все равно глазами проверять надо каждое поле
Andrii Kurdiumov
4
Ну есть у нас десяток компаний которым надо. Остальным то зачем?
Andrii Kurdiumov
4
Приветствую. А не подскажете какие ограничения есть на использования api метода setMyName ? Несколько раз сменил имя бота и получил бан на 2 месяца на смену имени.
Slick Slack
8
Всем привет! Взялся портировать модули на 18 версию, лезет _logger.log(log_level, 'no translation language detected, skipping translation %s', frame, stack_info=True) А чт...
Max Lit
3
что значит рваность? фргаментированость?? для лох эт нормальное состояние. там сжатие редкое явление
Mikhail Lomonosov
1
Привет, коллеги! Возникла задача ограничить максимальный размер вложений для определённых расширений, например, чтобы для изображений лимит был 10 МБ, а для видео — 100 МБ. Ог...
Andro
1
Карта сайта