А по масштабированию, у нас узлы (датаноды) по 6 дисков,

в клоудере трешхолд 1 млн блоков на датаноду. вот интересует если под новый кластер ноды с 12 дисками заказать, можно надеятся на 2 млн блоков что вытянут ?

20 ответов

31 просмотр

это навскидку 256Тб на ноду. Слабо верится

Dmitry- Автор вопроса

речь про 64мб блоки. специфика системы такая, что мелких файлов дофига и бороться с мелочью сложно

Dmitry- Автор вопроса

вытянут, но нужно свежий хадуп чтобы гарантированно всё хорошо работало в свежих версиях датаноды репорт в неймноду могут бить на чанки, а не одним большим пакетом отправлять

Dmitry
речь про 64мб блоки. специфика системы такая, что ...

кмк вы немножко плаваете в терминах и как это работает, блок может быть любого размера, 64 мб это умолчание которое используется как верхняя граница (то есть блок мб меньше, зависит от приложения) в любом случае это не про диски в датаноде вопрос

Dmitry- Автор вопроса

на сколько я понимаю блок это логическая штуковина, файл занимает целый блок, т.е. при пересылке от мапера к редюсору 64 мб блок поедет. на линксовой файловой системе этот блок будет представлен как файл, пусть и не 64 мб размером но отдельный файл. вот с этим ресурсом у меня и проблемка

Dmitry
на сколько я понимаю блок это логическая штуковина...

этот ресурс - память на неймноде, и способность датаноды быстро посылать репорты, диски не имеют никакого отношения к этому

Dmitry- Автор вопроса

память на неймноде увеличивали, про это полно статей. а вот как диски на датаноде влияют не удалось найти инфы

вы видите в логах неймноды сообщения block report queue is full?

Alex
вытянут, но нужно свежий хадуп чтобы гарантированн...

dfs.blockreport.split.threshold сто лет в обед, точно был до тройки

Dmitry
память на неймноде увеличивали, про это полно стат...

попробуйте вот эту статью прочитать, мб поможет https://community.cloudera.com/t5/Community-Articles/Scaling-the-HDFS-NameNode-part-5/ta-p/327450

Dmitry- Автор вопроса
Anton Zadorozhniy
вы видите в логах неймноды сообщения block report ...

вот прямо сейчас проблем нет, т.к. на датанодах примерно по 1 млн блоков, но грядут миграции и встал вопрос какие ноды заказывать. я помню что когда на узлах выше 1.3 млн блоков перфоменс просидал не сотря на танцы вокруг name ноды

могу вам сказать что датаноды с 12 или 16 дисками это вполне нормально (зависит от вашей сети больше), по крайней мере было раньше, врядли сейчас рекомендация делать меньше дисков

Anton Zadorozhniy
dfs.blockreport.split.threshold сто лет в обед, то...

я больше говорил про https://issues.apache.org/jira/browse/HADOOP-16452 Increase ipc.maximum.data.length default from 64MB to 128MB там в описании что если не укладывается то реджектится ну и HDFS-9011 Support splitting BlockReport of a storage into multiple RPC =\ так и не смержено, но вроде как у клоудеры в свое время я видел в списке патчей

Dmitry- Автор вопроса
Anton Zadorozhniy
могу вам сказать что датаноды с 12 или 16 дисками ...

а какая рекомендация сколько блоков на дата ноде стараться иметь максимально ? и еще, речь о кластере менее 50 нод, т.е. крошечный для проблемы неймноды

Dmitry
а какая рекомендация сколько блоков на дата ноде с...

Проблема неймноды не в количестве нод, а в количестве объектов в HDFS

Dmitry
а какая рекомендация сколько блоков на дата ноде с...

у меня нет такой рекомендации, мб кто-то еще подскажет

Anton Zadorozhniy
у меня нет такой рекомендации, мб кто-то еще подск...

тоже не сталкивался, с датанодами из проблем было 1. увеличить память чтобы всё влазило 2. на больших блокрепортах бывало что gc грузило 3. ну выше параметр который приходилось руками проставлять по быстрому ничего больше не вспоминается ну кроме всяких настроек ещё на количество хендлер тредов и проверки что short circuit read работает, но это не относится к данному вопросу

Dmitry- Автор вопроса
Alex Leshkov
Проблема неймноды не в количестве нод, а в количес...

попробуйте забубенить 200 млн файлов на 3 датаноды по 6 дисков и увидите что упераетесь не в неймноду

Alex
тоже не сталкивался, с датанодами из проблем было ...

я один раз встречал проблему перегрузки неймноды блокрепортами, и там оно полечилось настройкой задержки между блокрепортами

Похожие вопросы

Обсуждают сегодня

Добрый вечер, Пока не совсем понимаю как наладить общение между телеграм ботом и ПО для работы с сим боксом. По самому боту так понял: - Нужен некий баланс, который можно поп...
Magic
6
сделал сайт, прикрутил в боте сайт, и виджет логина. как автоматически логинить пользователя в аккаунт(телеграм), при входе с бота?
Александра Чернивецкая
5
Объясните, пожалуйста, почему компилятор ругается на использование в условии неинициализированной переменной: int x; Task.Run(async () => { x = await somefunc(); }).Wait...
Александр
5
Ребят, подскажите, пожалуйста, почему в префиксе к ассетам, которые генерируются через фильтр | theme в шаблоне, стал вдруг появляться index.php? Вот так выглядит ссылка на а...
Виталий
1
Всем привет. Ребята, подскажите, пожалуйста. у ботов есть ограничение на отправку сообщений - 30 сообщений в секунду, эти ограничения накладываются на все сообщения? или на со...
Artem Stormageddon
4
Блин, ребята, сори за тупые вопросы. А можно ли как-то открыть вебапку по нажатию на кнопку в меню(которое появляется слева, команды)?
Artem Stormageddon
3
а плаксы из-под питона умеют только в комфортных условиях что-то выдавить из себя?)
Lencore
9
Но, может, есть уже проверенная? Наши требования такие: 1. Сообщения должны приходить из Инста в CRM оду 2. Должна быть возможность подключить несколько экаунтов Инстаграм. Р...
Alexander Sharoiko MSE / Александр Шаройко
13
Это может быть все-таки не флудвейт? у меня ботфазер принимает изменения и отображает даже что они изменились, на видео видно что он прислал якобы уже измененное описание, н...
OVERLINK
13
Коллеги, может знает кто, можно ли цвет бейджа счётчика в BackendMenu менять без бубнов?
Alex Blaze
3
Карта сайта