Братюни и братюнессы. Есть ceph трёхнодовый для нужд кубера (не спраашивайте

почему это так случилось).

Последнее время стал падать с ворнингами MDS SLOW OPS и MDS в статусе rejoin
Руками восстанавливаю, но через неделю опять начинает в какой-то момент.

Куда копать?

4 ответов

18 просмотров

В сторону логов и мониторинга. Если восстановление - рестарт mds, уделить внимание утилизации оперативной памяти.

ncu-[❌] Автор вопроса
Виктор
В сторону логов и мониторинга. Если восстановление...

С восстановлением проблем нет, мониторинг есть но на какие метрики обратить внимание? Так же как что в логах то искать?

ncu [❌]
С восстановлением проблем нет, мониторинг есть но ...

в мониторинге - «хорошее состояние», состояние предшествующее возникновению проблемы и состояние в момент проблемы. Искать разницу, думать. В логах - ошибки. Искать их описание, думать. А вообще, я б с курсов/книжек по Linux рекомендовал начать, но понимаю: хуяк, хуяк и в продакшен - долго, надо просто - хуяк и в прод, так что можно ограничиться курсами/книжками/документацией по ceph

ncu-[❌] Автор вопроса

Если кому интересно в чём была проблема: - Есть сервис который генерил много логов. Причём он делал это в виде: <task><full_date><job><sub-job><logfile> В результате в ПВЦ через месяц работы было ну очень огромное количество фолдеров и файлов. Учитывая что на МДС серверах выделено всего 8-16 гиг оперативки, МДС просто не справлялся. Перенесли хранилище логов и всё путём

Похожие вопросы

Обсуждают сегодня

Не совсем в тему возможно, но может кто то пробовал поднять цеф на нодах вмвари и с последующим подключением через айскази в саму вмварю?
Alexander Zaitsev
34
Привет. Изучаю возможности iscsi gateway и у меня проблема. Я сделал по ману из оф. доки, но спустя какое-то время кластер начал ругаться след.ошибкой: user@ceph-node1:~$ sudo...
Vladimir Ivanov
3
Всем добра. продолжаю знакомится с ceph, возник вопрос на который я с ходу найти ответ не могу. Мысль следующая. Возможен ли кластер цеф, когда основная часть нод в одном дат...
mendisobal
28
Подскажите пожалуйста, а вот много вижу что фактор репликации надо ставить 3 и выше, мониторов по больше. Неужели цеф настолько нестабильный? Или просто используется в мощных ...
Тау Фокс
28
Всем здарова. После нештатного отключения электричества не запускаются два из трех OSD кластера Ceph, резвернутого через rook в кубере. Логи expand-bluefs 2023-10-09T09:15:23...
Vlad Trefilov
4
Всем привет, подскажите, пожалуйста, куда копать? *Warning по Ceph* Версия Ceph: ceph -v ceph version 15.2.17 (8a82819d84cf884bd39c17e3236e0632ac146dc4) octopus (stable) На...
Nesterov Ivan
7
Добрый день! Коллеги, подскажите пожалуйста, насколько целесообразно использовать CEPH, в качестве SDS для системы фото видео фиксации в проекте "Безопасный город"? Планируе...
Victor
23
Вот запихали диски в полки. Дальше что? Интерконнект сетевой между серверами какой нужен? Ну чтобы и публичка и бэк CEPH-а за ресурсы сетевые не передрались. А еще по публичк...
Andrey Nemysskiy
7
Есть ли какой-то штатный или известный механизм ограничения количества одновременного запуска осд при старте ноды в container-based кластере с cephadm? Или вариант с кастомиза...
Qntm
17
как понять какие физические диски используются в кластере ?
DimaE
17
Карта сайта