Например можно сделать детальный нормализованный слой, и менять процесс наливки из источника в детальки, а процессы построения витрин меняются только для новой функциональности
можно. Но менять все равно придется. Оно как бы и неплохо даже, непонято просто в чем тут пойнт.
Прекрасно, я спокоен за своих потомков)
нельзя :)
тогда Excel и тоже будет счастье.
и гугль докс. кому-то вполне подходит.
а разве в эпоху дата лейков так кто-то еще делает ? ну кроме как на террадате ? я не понтуюсь, но вроде все новомодное, начиная со спарка, заканчивая КХ не любит же джойны. и ходуп, уже не новомодный не любит
ключевое тут "начиная с определённого масштаба". Да, есть в мире компании, в которых работает менее 1000 сотрудников, и они никогда не поставят террадату и прочие.
ну да, но там же джойн на джойне, джойном погоняет. разве такое взлетит на databriks и его spark
джойты то системы могут не любить, но когда у нас большая номенклатура систем-источников и данные там разрознены, то как без джойнов?
Они все переписали на кресты и симд ровно чтобы такое заработало)
совсем без джойнов - никак. Но надо же знать меру!
ну если и данных у них толком нет (я про номенклатуру), то для них это будет лишним.
ну как, не увлекаться нормализацией
Я с этим не спорю, вы же предлагали закапывать инмона без оговорок про масштабы
ну все-таки я предлагал инмона закапывать, а не DV/anchor ?
а чего это влдруг им кресты помогут ? шафлинг никуда не делся, какая разница кресты это или jvm делает, успеха то не будет
Показывай, что не работает, ща разберёмся)
поставлю mysql
вот так и сведу, чтобы в BI было то что нужно, а не что придумали разработчики 10 лет назад.
В 3 спарке добавили спец. поддержку звездочки
Меньше задержки на старте, меньше накладные на управление памятью, больше утилизация - они считают им этого хватит
боюсь только этот шаг не сильно поможет 🙂
кому нужно? Рознице, опту, e-commerce, финансам, маркетингу, логистике?
это круто, я даже могу поверить что где-то аж 20% буста добавит, но шафл. шафл не даст эти миллиарды джойнов гонять как того требует DV, anchor и прочие
Skew join
В 3 же добавили обработку
2021-09-29 04:04:53 WARN [Reporter] YarnAllocator:66 - Container killed by YARN for exceeding memory limits. 22.3 GB of 20 GB physical memory used. Consider boosting spark.yarn.executor.memoryOverhead or disabling yarn.nodemanager.vmem-check-enabled because of YARN-4714.
на спарке тоже крупные заказчики. сути то это не меняет. там все неоднозначно. а джойны точно смерть
скю?
Я как раз и говорю, у датабрикса есть очень крупные пользователи с DV и их вроде как все устраивает
Skew - это название для "насовать всё в одну партицию"
я в таких случаях вспоминаю серию из мультика на аватаре, когда люди узнают что можно перемещать без трубок во рту и заднице
я в курсе. но потом приходишь к этому крупного а он говорит "вот где карту получали, вот туда и идите" и начинаешь понимать почему устраивает
Очень крупному дешевле сказать, что всё устраивает, чем признать, что опять вложили бабки вникуда😆
а, а как ручками, есть разные подходы
Хорошая аналогия
Это уже спекуляции, по этой дороге дальше без меня :) По моим данным есть ненулевой рынок компаний которых устраивает датабрикс в качестве платформы нормализованного детального слоя, в этом был мой аргумент
Я в последнее время думаю, сколько времени у меня займёт сделать джоин по цене чтения. Естественно, фиксированный. И думаю, что если всё пойдёт хорошо, то к весне могу уложиться, чтобы другие задачи не пострадали. Весьма возможно, что датабрикс преуспел в этом гораздо раньше
//оффтоп который должен быть в Data Jobs, простите меня А вы с такими идеями присоединяйтесь к нашей команде в Берлине - как раз этим ребята занимаются. Напишите мне в личку если заинтересованы 🙂 //оффтоп который должен быть в Data Jobs закончен
я не спорю что рынок есть, я даже искренне верую что есть цедестремленные люди которые вкладывая сотни челокочасов доводят до "устраивает". но это не отменяет шафлинга. никак. и никак не добавляет плюсов DV/archer на платформах не любящих джойн
в датабриксе абсолютно тот же каталист оптимизатор. абсолютно. никакой принципиальной разницы со спарком не будет
Ну тут мы говорим про стек решений, и мб построить детальки в ГП/редшифт/терадате, а потом тащить в датабрикс для витрин для этих компаний (в сумме) дороже чем считать детальки в датабриксе?
так это же не по феншую с точки зрения lighthouse
Вы же знаете про бакеты и мап сайд джоины?
Я не говорю про «принципиальное» улучшение, плюсовая реализация к типу джоинов не имеет отношения
Что такое феншуй в отношении архитектуры решений?
именно. потому я и смотрю на датабрикс, чуть улучшенный спарк, со всеми спарковыми шероховатостями. ничего принципального другого там никто не обещает. значит и системам с джойн на джойне, джойном погоняет будет сложней, чем инмовским
мне кажется большинство их как бест практис воспринимает. плюс у них же там всякие курсы, они там именно эти брошюри именно с таким пониманием lighthouse и пересказывают. кстати тот самый Инмон буквально вчера под диктовку датабрикса книгу про lighthouse выкатил, и мне кажется понятно что они ему надиктовали
Ну там ещё DBIO есть, а в Photon кэширование ещё больше, но поинт не в этом; если вы СТО или CIO, и у вас есть DV на датабриксе который строит витрины вовремя, а боттом лайн меньше чем у сборной солянки из МРР и витринных систем - вам глубоко наплевать что там делается лишний шафл
Обсуждают сегодня