идет жуткая череда падений с ошибками доступа к памяти. грешат на ошибки железа (не ЕСС), но ни memtest ни какой другой софт проблем не испытывает вообще. кто-нибудь с таки сталкивался?
без стек трейсов конкретных ошибок ничего сказать нельзя
2021.12.15 15:30:37.114726 [ 6190 ] {} <Error> void DB::AsynchronousMetrics::update(std::chrono::system_clock::time_point): Code: 74, e.displayText() = DB::ErrnoException: Cannot read from file /sys/class/hwmon/hwmon3/temp1_input, errno: 61, strerror: No data available, Stack trace (when copying this message, always include the lines below): 0. DB::Exception::Exception(std::__1::basic_string<char, std::__1::char_traits<char>, std::__1::allocator<char> > const&, int, bool) @ 0x8fe3e9a in /usr/bin/clickhouse 1. DB::throwFromErrnoWithPath(std::__1::basic_string<char, std::__1::char_traits<char>, std::__1::allocator<char> > const&, std::__1::basic_string<char, std::__1::char_traits<char>, std::__1::allocator<char> > const&, int, int) @ 0x8fe4e89 in /usr/bin/clickhouse 2. DB::ReadBufferFromFileDescriptor::nextImpl() @ 0x9035e7e in /usr/bin/clickhouse 3. void DB::readIntTextImpl<long, void, (DB::ReadIntTextCheckOverflow)0>(long&, DB::ReadBuffer&) @ 0x9196772 in /usr/bin/clickhouse 4. DB::AsynchronousMetrics::update(std::__1::chrono::time_point<std::__1::chrono::system_clock, std::__1::chrono::duration<long long, std::__1::ratio<1l, 1000000l> > >) @ 0xffdfdb2 in /usr/bin/clickhouse 5. DB::AsynchronousMetrics::start() @ 0xffd82e0 in /usr/bin/clickhouse 6. DB::Server::main(std::__1::vector<std::__1::basic_string<char, std::__1::char_traits<char>, std::__1::allocator<char> >, std::__1::allocator<std::__1::basic_string<char, std::__1::char_traits<char>, std::__1::allocator<char> > > > const&) @ 0x906a7d0 in /usr/bin/clickhouse 7. Poco::Util::Application::run() @ 0x13be4183 in /usr/bin/clickhouse 8. DB::Server::run() @ 0x905af0f in /usr/bin/clickhouse 9. mainEntryClickHouseServer(int, char**) @ 0x90592b3 in /usr/bin/clickhouse 10. main @ 0x8fdebfe in /usr/bin/clickhouse 11. __libc_start_main @ 0x26d0a in /lib/x86_64-linux-gnu/libc-2.31.so 12. _start @ 0x8fa9eae in /usr/bin/clickhouse (version 21.8.12.29 (official build))
дак это вообще не память это у вас async metrics пытается счетчики температуры посчитать в async_metrics сложить =( а у вас там что-то поменялось, при этом кликхаус дурила картонная продолжает старое пытаться читать TRUNCATE сделайте для system.*metrics* и ребутнитесь
async_metrics_log отключен - туда ничего не кладется, а async_metrics это виртуальная таблица, ее не почистишь. проблема по памяти - это отдельная история
да, проблема с памятью обычно выглядит так:
а что говорит cat /sys/class/hwmon/hwmon3/temp1_input в гитхабе заводите issue
Нет этого файла. В контейнерах оно не нужно)
это интересно, как КХ его узнал, мне казалось он просто листит имена датчиков, потом читает
наврал. файлы есть, но читать из них нельзя
тогда понятно, но все равно бага в КХ покажите в issue пример что list работает, а чтение нет
еще раз проверил. файл и на хосте не читается. но это не дело КХ туда лезть вообще 😖
https://github.com/ClickHouse/ClickHouse/issues/32807
Обсуждают сегодня