почему это так случилось).
Последнее время стал падать с ворнингами MDS SLOW OPS и MDS в статусе rejoin
Руками восстанавливаю, но через неделю опять начинает в какой-то момент.
Куда копать?
В сторону логов и мониторинга. Если восстановление - рестарт mds, уделить внимание утилизации оперативной памяти.
С восстановлением проблем нет, мониторинг есть но на какие метрики обратить внимание? Так же как что в логах то искать?
в мониторинге - «хорошее состояние», состояние предшествующее возникновению проблемы и состояние в момент проблемы. Искать разницу, думать. В логах - ошибки. Искать их описание, думать. А вообще, я б с курсов/книжек по Linux рекомендовал начать, но понимаю: хуяк, хуяк и в продакшен - долго, надо просто - хуяк и в прод, так что можно ограничиться курсами/книжками/документацией по ceph
Если кому интересно в чём была проблема: - Есть сервис который генерил много логов. Причём он делал это в виде: <task><full_date><job><sub-job><logfile> В результате в ПВЦ через месяц работы было ну очень огромное количество фолдеров и файлов. Учитывая что на МДС серверах выделено всего 8-16 гиг оперативки, МДС просто не справлялся. Перенесли хранилище логов и всё путём
Обсуждают сегодня