Ну а как? Что-то поменять все равно придется.

ну да, но там же джойн на джойне, джойном погоняет. разве такое взлетит на databriks и его spark

0

29.09.2021

джойты то системы могут не любить, но когда у нас большая номенклатура систем-источников и данные там разрознены, то как без джойнов?

0

29.09.2021

Они все переписали на кресты и симд ровно чтобы такое заработало)

0

29.09.2021

Boris Автор вопроса

совсем без джойнов - никак. Но надо же знать меру!

0

29.09.2021

ну если и данных у них толком нет (я про номенклатуру), то для них это будет лишним.

0

29.09.2021

ну как, не увлекаться нормализацией

0

29.09.2021

Я с этим не спорю, вы же предлагали закапывать инмона без оговорок про масштабы

0

29.09.2021

Boris Автор вопроса

ну все-таки я предлагал инмона закапывать, а не DV/anchor ?

0

29.09.2021

а чего это влдруг им кресты помогут ? шафлинг никуда не делся, какая разница кресты это или jvm делает, успеха то не будет

0

29.09.2021

Показывай, что не работает, ща разберёмся)

0

29.09.2021

поставлю mysql

0

29.09.2021

Boris Автор вопроса

вот так и сведу, чтобы в BI было то что нужно, а не что придумали разработчики 10 лет назад.

0

29.09.2021

В 3 спарке добавили спец. поддержку звездочки

0

29.09.2021

Меньше задержки на старте, меньше накладные на управление памятью, больше утилизация - они считают им этого хватит

0

29.09.2021

боюсь только этот шаг не сильно поможет 🙂

0

29.09.2021

кому нужно? Рознице, опту, e-commerce, финансам, маркетингу, логистике?

0

29.09.2021

это круто, я даже могу поверить что где-то аж 20% буста добавит, но шафл. шафл не даст эти миллиарды джойнов гонять как того требует DV, anchor и прочие

0

29.09.2021

Skew join

0

29.09.2021

В 3 же добавили обработку

0

29.09.2021

2021-09-29 04:04:53 WARN [Reporter] YarnAllocator:66 - Container killed by YARN for exceeding memory limits. 22.3 GB of 20 GB physical memory used. Consider boosting spark.yarn.executor.memoryOverhead or disabling yarn.nodemanager.vmem-check-enabled because of YARN-4714.

0

29.09.2021

на спарке тоже крупные заказчики. сути то это не меняет. там все неоднозначно. а джойны точно смерть

0

29.09.2021

скю?

0

29.09.2021

Я как раз и говорю, у датабрикса есть очень крупные пользователи с DV и их вроде как все устраивает

0

29.09.2021

Skew - это название для "насовать всё в одну партицию"

0

29.09.2021

я в таких случаях вспоминаю серию из мультика на аватаре, когда люди узнают что можно перемещать без трубок во рту и заднице

0

29.09.2021

я в курсе. но потом приходишь к этому крупного а он говорит "вот где карту получали, вот туда и идите" и начинаешь понимать почему устраивает

0

29.09.2021

Очень крупному дешевле сказать, что всё устраивает, чем признать, что опять вложили бабки вникуда😆

0

29.09.2021

а, а как ручками, есть разные подходы

0

29.09.2021

Ilya

Хорошая аналогия

0

29.09.2021

Это уже спекуляции, по этой дороге дальше без меня :) По моим данным есть ненулевой рынок компаний которых устраивает датабрикс в качестве платформы нормализованного детального слоя, в этом был мой аргумент

0

29.09.2021

iKaleeninskii

Я в последнее время думаю, сколько времени у меня займёт сделать джоин по цене чтения. Естественно, фиксированный. И думаю, что если всё пойдёт хорошо, то к весне могу уложиться, чтобы другие задачи не пострадали. Весьма возможно, что датабрикс преуспел в этом гораздо раньше

0

29.09.2021

Renarde

//оффтоп который должен быть в Data Jobs, простите меня А вы с такими идеями присоединяйтесь к нашей команде в Берлине - как раз этим ребята занимаются. Напишите мне в личку если заинтересованы 🙂 //оффтоп который должен быть в Data Jobs закончен

0

29.09.2021

я не спорю что рынок есть, я даже искренне верую что есть цедестремленные люди которые вкладывая сотни челокочасов доводят до "устраивает". но это не отменяет шафлинга. никак. и никак не добавляет плюсов DV/archer на платформах не любящих джойн

0

29.09.2021

в датабриксе абсолютно тот же каталист оптимизатор. абсолютно. никакой принципиальной разницы со спарком не будет

0

29.09.2021

Ну тут мы говорим про стек решений, и мб построить детальки в ГП/редшифт/терадате, а потом тащить в датабрикс для витрин для этих компаний (в сумме) дороже чем считать детальки в датабриксе?

0

29.09.2021

так это же не по феншую с точки зрения lighthouse

0

29.09.2021

Вы же знаете про бакеты и мап сайд джоины?

0

29.09.2021

Я не говорю про «принципиальное» улучшение, плюсовая реализация к типу джоинов не имеет отношения

0

29.09.2021

Что такое феншуй в отношении архитектуры решений?

0

29.09.2021

именно. потому я и смотрю на датабрикс, чуть улучшенный спарк, со всеми спарковыми шероховатостями. ничего принципального другого там никто не обещает. значит и системам с джойн на джойне, джойном погоняет будет сложней, чем инмовским

0

29.09.2021

мне кажется большинство их как бест практис воспринимает. плюс у них же там всякие курсы, они там именно эти брошюри именно с таким пониманием lighthouse и пересказывают. кстати тот самый Инмон буквально вчера под диктовку датабрикса книгу про lighthouse выкатил, и мне кажется понятно что они ему надиктовали

0

29.09.2021

Ну там ещё DBIO есть, а в Photon кэширование ещё больше, но поинт не в этом; если вы СТО или CIO, и у вас есть DV на датабриксе который строит витрины вовремя, а боттом лайн меньше чем у сборной солянки из МРР и витринных систем - вам глубоко наплевать что там делается лишний шафл

0

29.09.2021

Anton Zadorozhniy · Accepted Answer