в клоудере трешхолд 1 млн блоков на датаноду. вот интересует если под новый кластер ноды с 12 дисками заказать, можно надеятся на 2 млн блоков что вытянут ?
это навскидку 256Тб на ноду. Слабо верится
речь про 64мб блоки. специфика системы такая, что мелких файлов дофига и бороться с мелочью сложно
диски по 2 тб, 6 штучек
вытянут, но нужно свежий хадуп чтобы гарантированно всё хорошо работало в свежих версиях датаноды репорт в неймноду могут бить на чанки, а не одним большим пакетом отправлять
кмк вы немножко плаваете в терминах и как это работает, блок может быть любого размера, 64 мб это умолчание которое используется как верхняя граница (то есть блок мб меньше, зависит от приложения) в любом случае это не про диски в датаноде вопрос
на сколько я понимаю блок это логическая штуковина, файл занимает целый блок, т.е. при пересылке от мапера к редюсору 64 мб блок поедет. на линксовой файловой системе этот блок будет представлен как файл, пусть и не 64 мб размером но отдельный файл. вот с этим ресурсом у меня и проблемка
этот ресурс - память на неймноде, и способность датаноды быстро посылать репорты, диски не имеют никакого отношения к этому
память на неймноде увеличивали, про это полно статей. а вот как диски на датаноде влияют не удалось найти инфы
вы видите в логах неймноды сообщения block report queue is full?
dfs.blockreport.split.threshold сто лет в обед, точно был до тройки
попробуйте вот эту статью прочитать, мб поможет https://community.cloudera.com/t5/Community-Articles/Scaling-the-HDFS-NameNode-part-5/ta-p/327450
вот прямо сейчас проблем нет, т.к. на датанодах примерно по 1 млн блоков, но грядут миграции и встал вопрос какие ноды заказывать. я помню что когда на узлах выше 1.3 млн блоков перфоменс просидал не сотря на танцы вокруг name ноды
могу вам сказать что датаноды с 12 или 16 дисками это вполне нормально (зависит от вашей сети больше), по крайней мере было раньше, врядли сейчас рекомендация делать меньше дисков
я больше говорил про https://issues.apache.org/jira/browse/HADOOP-16452 Increase ipc.maximum.data.length default from 64MB to 128MB там в описании что если не укладывается то реджектится ну и HDFS-9011 Support splitting BlockReport of a storage into multiple RPC =\ так и не смержено, но вроде как у клоудеры в свое время я видел в списке патчей
а какая рекомендация сколько блоков на дата ноде стараться иметь максимально ? и еще, речь о кластере менее 50 нод, т.е. крошечный для проблемы неймноды
Проблема неймноды не в количестве нод, а в количестве объектов в HDFS
у меня нет такой рекомендации, мб кто-то еще подскажет
тоже не сталкивался, с датанодами из проблем было 1. увеличить память чтобы всё влазило 2. на больших блокрепортах бывало что gc грузило 3. ну выше параметр который приходилось руками проставлять по быстрому ничего больше не вспоминается ну кроме всяких настроек ещё на количество хендлер тредов и проверки что short circuit read работает, но это не относится к данному вопросу
попробуйте забубенить 200 млн файлов на 3 датаноды по 6 дисков и увидите что упераетесь не в неймноду
я один раз встречал проблему перегрузки неймноды блокрепортами, и там оно полечилось настройкой задержки между блокрепортами
Обсуждают сегодня