8 нод - 4 щарды по 2 реплике в шарде. Переливали данные из старого кликхаус кластера в новый. У кластера внутренняя выделенная сетка.
В общем при записи накопилось куча данных в table_name_distributed - были таймауты по вставке в другие ноды. Сейчас судя по логам кликхаус пытается их переотправить, но периодически умирает с Timeout:
2018.05.21 11:15:05.981436 [ 98 ] <Error> ping_event_distributed.Distributed.DirectoryMonitor: Code: 209, e.displayText() = DB::NetException: Timeout exceeded while writing to socket (172.16.0.105:9000), e.what() = DB::NetException, Stack trace:
0. /usr/bin/clickhouse-server(StackTrace::StackTrace()+0x15) [0x84eb065]
1. /usr/bin/clickhouse-server(DB::Exception::Exception(std::__cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> > const&, int)+0x21) [0x2ccbe01]
2. /usr/bin/clickhouse-server(DB::WriteBufferFromPocoSocket::nextImpl()+0x827) [0x85169b7]
3. /usr/bin/clickhouse-server() [0x851adf1]
4. /usr/bin/clickhouse-server(DB::Connection::sendPreparedData(DB::ReadBuffer&, unsigned long, std::__cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> > const&)+0x548) [0x7f582d8]
5. /usr/bin/clickhouse-server(DB::RemoteBlockOutputStream::writePrepared(DB::ReadBuffer&, unsigned long)+0x3d) [0x803ad6d]
6. /usr/bin/clickhouse-server(DB::StorageDistributedDirectoryMonitor::processFile(std::__cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> > const&)+0xf0) [0x7e6d3f0]
7. /usr/bin/clickhouse-server(DB::StorageDistributedDirectoryMonitor::findFiles()+0x16f) [0x7e6ed3f]
8. /usr/bin/clickhouse-server(DB::StorageDistributedDirectoryMonitor::run()+0x94) [0x7e6f324]
9. /usr/bin/clickhouse-server() [0x8dd397e]
10. /lib/x86_64-linux-gnu/libpthread.so.0(+0x76b9) [0x7ff04a35d6b9]
11. /lib/x86_64-linux-gnu/libc.so.6(clone+0x6c) [0x7ff049b8641c]
На ноде 172.16.0.105 не вижу никаких проблем, по dmesg и прчим нетстатам тоже все ок. Нагрузки нет, LA порядка 0.5 на 24 ядра.
Есть мысли куда копнуть? Грешу на сеть, но что-то не вижу никаких явных проблем с ней 😕
Благодарю!
А на другой ноде в это время вижу такой exception, что логично, кстати: 2018.05.21 11:55:47.268405 [ 142 ] <Error> executeQuery: Code: 33, e.displayText() = DB::Exception: Cannot read all data, e.what() = DB::Exception (from 172.16.0.101:34918) Stack trace: 0. /usr/bin/clickhouse-server(StackTrace::StackTrace()+0x15) [0x84eb065] 1. /usr/bin/clickhouse-server(DB::Exception::Exception(std::__cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> > const&, int)+0x21) [0x2ccbe01] 2. /usr/bin/clickhouse-server(DB::CompressedReadBufferBase::readCompressedData(unsigned long&, unsigned long&)+0x8fd) [0x84f7e5d] 3. /usr/bin/clickhouse-server(DB::CompressedReadBuffer::nextImpl()+0x32) [0x84f7022] 4. /usr/bin/clickhouse-server() [0x7652d44] 5. /usr/bin/clickhouse-server(DB::NativeBlockInputStream::readData(DB::IDataType const&, DB::IColumn&, DB::ReadBuffer&, unsigned long, double)+0xf7) [0x75f7dd7] 6. /usr/bin/clickhouse-server(DB::NativeBlockInputStream::readImpl()+0x966) [0x75fae86] 7. /usr/bin/clickhouse-server(DB::IProfilingBlockInputStream::read()+0x259) [0x75f5c49] 8. /usr/bin/clickhouse-server(DB::TCPHandler::receiveData()+0x83) [0x2cda183] 9. /usr/bin/clickhouse-server(DB::TCPHandler::receivePacket()+0xcc) [0x2cdb67c] 10. /usr/bin/clickhouse-server(DB::TCPHandler::readData(DB::Settings const&)+0x1c2) [0x2cdbb42] 11. /usr/bin/clickhouse-server(DB::TCPHandler::processInsertQuery(DB::Settings const&)+0x205) [0x2cdbee5] 12. /usr/bin/clickhouse-server(DB::TCPHandler::runImpl()+0x476) [0x2cdc566] 13. /usr/bin/clickhouse-server(DB::TCPHandler::run()+0x2a) [0x2cdd3ba] 14. /usr/bin/clickhouse-server(Poco::Net::TCPServerConnection::start()+0xe) [0x86d53de] 15. /usr/bin/clickhouse-server(Poco::Net::TCPServerDispatcher::run()+0x169) [0x86d57b9] 16. /usr/bin/clickhouse-server(Poco::PooledThread::run()+0x76) [0x8776976] 17. /usr/bin/clickhouse-server(Poco::ThreadImpl::runnableEntry(void*)+0x37) [0x8772b87] 18. /usr/bin/clickhouse-server() [0x8dd397e] 19. /lib/x86_64-linux-gnu/libpthread.so.0(+0x76b9) [0x7fb9157d06b9] 20. /lib/x86_64-linux-gnu/libc.so.6(clone+0x6c) [0x7fb914ff941c] Прогнал сетку iperf'ом - вроде все ок, 830 mbit/sec выдает.. Есть идеи почему еще таймаут выскакивать может?
Обсуждают сегодня