Ребят, есть Цеф из 1 ноды, цель исключительно как помойка

для хранения ~900млн фотографий. Не могу нифига их туда залить, очень оно все медленное. Всего тут 40 x 4TB дисков и 2 x 4TB NVMe драйва, последние разбиты на 8 OSD каждый. Вот такие вот пулы есть, все replica x3:

1 device_health_metrics
2 .rgw.root
3 default.rgw.log
4 default.rgw.control
5 default.rgw.meta
8 default.rgw.data
9 default.rgw.buckets.index
10 default.rgw.buckets.data

PG у каждого пула 32 или 8, установлен дефолтным автоскейлером.

Все пулы расположены на NVMe OSD, кроме default.rgw.buckets.data.

Не устраивает низкая скорость записи объектов, она от силы 2МБ/сек. Какими настройками можно это ускорить? Может 32 PG на rgw.buckets.data это слишком мало? Я его увеличил до 512, но автоскейлер сразу же начал его скейлить назад до 64.

29 ответов

31 просмотр
blkmrkt- Автор вопроса

Я серьезно, хочется вот с цефом познакомиться

Таких настроек нет, тут сначала доку по цефу читать надо, потом удалять однонодовое чудо

blkmrkt- Автор вопроса
Дмитрий Дятлов
"есть Цеф из 1 ноды" тут ошибка )

То есть если эти диски разделить на 3 ноды, то запись rgw будет быстрее? Ядер на этой одной ноде у меня хватает и еще много простаивает, памяти тоже много.

blkmrkt- Автор вопроса
Дмитрий Дятлов
доку читайте ) Выше ответили.

Читал, не вижу никаких ограничений почему цефу нельзя работать на 1 ноде. Failure domain у меня на уровне OSD.

blkmrkt
Читал, не вижу никаких ограничений почему цефу нел...

Работать он может на одной ноде, Другой вопрос, зачем?

PG очень мало, скейлер выруби накуй

Если не нужен листинг бакетов, то создай безиндексовый, а на нвме вынеси db+wal

blkmrkt- Автор вопроса

Ухх, короче я снова снес цеф и накатил zfs с логами поверх двух nvme. Те же скрипты в синхронном режиме теперь пишут 100МБ/сек в 20 процессов 😳 Я кстати в конце прогнал тот же rgw бакет с 40млн объектов с hsbench, и он ничуть не быстрее моих скриптов оказался, тоже от силы 2МБ/сек запись была.

blkmrkt
screenshot Ухх, короче я снова снес цеф и накатил zfs с логам...

а с какими параметрами-то hsbench и скрипты? там файлы какого размера, по 4 кб? хотя я даже не знаю, по-моему даже по 4 кб было бы быстрее

blkmrkt- Автор вопроса

У меня тоже 20МБ/сек PUTы были когда бакет пустой, но скатывались к 2МБ/сек после 30М объектов примерно. Я разве что indexless бакет так и не попробовал, но индексы у меня были в nvme пуле...

blkmrkt
У меня тоже 20МБ/сек PUTы были когда бакет пустой,...

ну тебе нужно PG больше, 32 это пздц как мало и в это упирался с большой вероятностью

blkmrkt- Автор вопроса
Виталий На Заборе
ну тебе нужно PG больше, 32 это пздц как мало и в ...

Угу я так и понял в самом конце, но уже не было сил бороться с автоскейлером, который нельзя даже было отключить

blkmrkt
Угу я так и понял в самом конце, но уже не было си...

да можно его отключить, как это нельзя - в настройках пула

blkmrkt- Автор вопроса
Виталий На Заборе
да можно его отключить, как это нельзя - в настрой...

я через гуи mgr зашел в настройки, нашел autoscaler а он серым помечен типа изменить невозможно, ну думаю хватит

blkmrkt
я через гуи mgr зашел в настройки, нашел autoscale...

сам модуль mgr-а да, отключить невозможно, отключать надо в настройках пула

blkmrkt
я через гуи mgr зашел в настройки, нашел autoscale...

ГУИ - ? Это всё то нужно знать о "Юзабилити"

blkmrkt- Автор вопроса

На зфс в вакууме? Я еще увеличивать параллельность не пробовал, наверняка он больше может

blkmrkt- Автор вопроса

угу, создава пул вот так: sudo zpool create black raidz2 sdb sdc sdd sde sdf sdg sdh sdi sdj sdk sdl sdm sdn sdq sdr sds sdt sdu sdv sdw sdx sdy sdz sdaa sdab sdac sdad sdae sdaf sdag log mirror nvme0n1 nvme1n1

особо смысла нет, slog для синхронной записи, его хватит в пару гигов размером. Есть special dev, на нём мету можно хранить

blkmrkt- Автор вопроса
Roman
особо смысла нет, slog для синхронной записи, его ...

классно, я потом оптан наверное приобрету и на него и мету и лог положу

blkmrkt
классно, я потом оптан наверное приобрету и на нег...

у тебя 2 nvme, можно выкинуть их из пула, разделить на 2 раздела 5 Гб и остальное и из первых сделать slog, из вторых special

blkmrkt- Автор вопроса
blkmrkt- Автор вопроса
Vyacheslav Olkhovchenkov
ой бля.

А что не так? 😳

Похожие вопросы

Обсуждают сегодня

Не совсем в тему возможно, но может кто то пробовал поднять цеф на нодах вмвари и с последующим подключением через айскази в саму вмварю?
Alexander Zaitsev
34
Привет. Изучаю возможности iscsi gateway и у меня проблема. Я сделал по ману из оф. доки, но спустя какое-то время кластер начал ругаться след.ошибкой: user@ceph-node1:~$ sudo...
Vladimir Ivanov
3
Всем добра. продолжаю знакомится с ceph, возник вопрос на который я с ходу найти ответ не могу. Мысль следующая. Возможен ли кластер цеф, когда основная часть нод в одном дат...
mendisobal
28
Подскажите пожалуйста, а вот много вижу что фактор репликации надо ставить 3 и выше, мониторов по больше. Неужели цеф настолько нестабильный? Или просто используется в мощных ...
Тау Фокс
28
Всем здарова. После нештатного отключения электричества не запускаются два из трех OSD кластера Ceph, резвернутого через rook в кубере. Логи expand-bluefs 2023-10-09T09:15:23...
Vlad Trefilov
4
Всем привет, подскажите, пожалуйста, куда копать? *Warning по Ceph* Версия Ceph: ceph -v ceph version 15.2.17 (8a82819d84cf884bd39c17e3236e0632ac146dc4) octopus (stable) На...
Nesterov Ivan
7
Добрый день! Коллеги, подскажите пожалуйста, насколько целесообразно использовать CEPH, в качестве SDS для системы фото видео фиксации в проекте "Безопасный город"? Планируе...
Victor
23
Вот запихали диски в полки. Дальше что? Интерконнект сетевой между серверами какой нужен? Ну чтобы и публичка и бэк CEPH-а за ресурсы сетевые не передрались. А еще по публичк...
Andrey Nemysskiy
7
Есть ли какой-то штатный или известный механизм ограничения количества одновременного запуска осд при старте ноды в container-based кластере с cephadm? Или вариант с кастомиза...
Qntm
17
как понять какие физические диски используются в кластере ?
DimaE
17
Карта сайта