А по масштабированию, у нас узлы (датаноды) по 6 дисков,

Question

А по масштабированию, у нас узлы (датаноды) по 6 дисков,

в клоудере трешхолд 1 млн блоков на датаноду. вот интересует если под новый кластер ноды с 12 дисками заказать, можно надеятся на 2 млн блоков что вытянут ?

#hadoop #russian #software

0

04.02.2022

20 ответов

57 просмотров

Dmitry Автор вопроса

речь про 64мб блоки. специфика системы такая, что мелких файлов дофига и бороться с мелочью сложно

0

04.02.2022

Dmitry Автор вопроса

Alex Leshkov
это навскидку 256Тб на ноду. Слабо верится

диски по 2 тб, 6 штучек

0

04.02.2022

Alex

вытянут, но нужно свежий хадуп чтобы гарантированно всё хорошо работало в свежих версиях датаноды репорт в неймноду могут бить на чанки, а не одним большим пакетом отправлять

0

04.02.2022

Anton Zadorozhniy

Dmitry
речь про 64мб блоки. специфика системы такая, что ...

кмк вы немножко плаваете в терминах и как это работает, блок может быть любого размера, 64 мб это умолчание которое используется как верхняя граница (то есть блок мб меньше, зависит от приложения) в любом случае это не про диски в датаноде вопрос

0

04.02.2022

Dmitry Автор вопроса

на сколько я понимаю блок это логическая штуковина, файл занимает целый блок, т.е. при пересылке от мапера к редюсору 64 мб блок поедет. на линксовой файловой системе этот блок будет представлен как файл, пусть и не 64 мб размером но отдельный файл. вот с этим ресурсом у меня и проблемка

0

04.02.2022

Anton Zadorozhniy

Dmitry
на сколько я понимаю блок это логическая штуковина...

этот ресурс - память на неймноде, и способность датаноды быстро посылать репорты, диски не имеют никакого отношения к этому

0

04.02.2022

Dmitry Автор вопроса

память на неймноде увеличивали, про это полно статей. а вот как диски на датаноде влияют не удалось найти инфы

0

04.02.2022

Anton Zadorozhniy

вы видите в логах неймноды сообщения block report queue is full?

0

04.02.2022

Anton Zadorozhniy

Alex
вытянут, но нужно свежий хадуп чтобы гарантированн...

dfs.blockreport.split.threshold сто лет в обед, точно был до тройки

0

04.02.2022

Anton Zadorozhniy

Dmitry
память на неймноде увеличивали, про это полно стат...

попробуйте вот эту статью прочитать, мб поможет https://community.cloudera.com/t5/Community-Articles/Scaling-the-HDFS-NameNode-part-5/ta-p/327450

0

04.02.2022

Dmitry Автор вопроса

Anton Zadorozhniy
вы видите в логах неймноды сообщения block report ...

вот прямо сейчас проблем нет, т.к. на датанодах примерно по 1 млн блоков, но грядут миграции и встал вопрос какие ноды заказывать. я помню что когда на узлах выше 1.3 млн блоков перфоменс просидал не сотря на танцы вокруг name ноды

0

04.02.2022

Anton Zadorozhniy

могу вам сказать что датаноды с 12 или 16 дисками это вполне нормально (зависит от вашей сети больше), по крайней мере было раньше, врядли сейчас рекомендация делать меньше дисков

0

04.02.2022

Alex

Anton Zadorozhniy
dfs.blockreport.split.threshold сто лет в обед, то...

я больше говорил про https://issues.apache.org/jira/browse/HADOOP-16452 Increase ipc.maximum.data.length default from 64MB to 128MB там в описании что если не укладывается то реджектится ну и HDFS-9011 Support splitting BlockReport of a storage into multiple RPC =\ так и не смержено, но вроде как у клоудеры в свое время я видел в списке патчей

0

04.02.2022

Dmitry Автор вопроса

Anton Zadorozhniy
могу вам сказать что датаноды с 12 или 16 дисками ...

а какая рекомендация сколько блоков на дата ноде стараться иметь максимально ? и еще, речь о кластере менее 50 нод, т.е. крошечный для проблемы неймноды

0

04.02.2022

Alex Leshkov

Dmitry
а какая рекомендация сколько блоков на дата ноде с...

Проблема неймноды не в количестве нод, а в количестве объектов в HDFS

0

04.02.2022

Anton Zadorozhniy

Dmitry
а какая рекомендация сколько блоков на дата ноде с...

у меня нет такой рекомендации, мб кто-то еще подскажет

0

04.02.2022

Alex

Anton Zadorozhniy
у меня нет такой рекомендации, мб кто-то еще подск...

тоже не сталкивался, с датанодами из проблем было 1. увеличить память чтобы всё влазило 2. на больших блокрепортах бывало что gc грузило 3. ну выше параметр который приходилось руками проставлять по быстрому ничего больше не вспоминается ну кроме всяких настроек ещё на количество хендлер тредов и проверки что short circuit read работает, но это не относится к данному вопросу

0

04.02.2022

Dmitry Автор вопроса

Alex Leshkov
Проблема неймноды не в количестве нод, а в количес...

попробуйте забубенить 200 млн файлов на 3 датаноды по 6 дисков и увидите что упераетесь не в неймноду

0

04.02.2022

Anton Zadorozhniy

Alex
тоже не сталкивался, с датанодами из проблем было ...

я один раз встречал проблему перегрузки неймноды блокрепортами, и там оно полечилось настройкой задержки между блокрепортами

0

04.02.2022