что еще влияет на перформанс hdfs ? кол-во дисков и dfs.datanode.data.dir полагаю должно заметно влиять, верно ? где бы почитать подробней ?
и подскажите чем лучше бы замерять скорость чтения с hdfs на внешнего клиента ?
Количество дисков на ноде, выбранный ErasureCoding по умолчанию, размер блока, типичный размер файла, количество файлов. Померить IO можно тем же HiBench (DFSIO) https://github.com/Intel-bigdata/HiBench
для внешнего клиента ваш throughput скорее всего упрется в сеть, мб вас latency больше интересует?
в этой части меня интересует чем лучше измерять, что мониторинг навесить. просто hdfs dfs -get или есть что-то интересней ?
Обсуждают сегодня