169 похожих чатов

Почему ETL? Потому что это вход. Что в конец лезть,

если в начале ахтунг?

27 ответов

5 просмотров

Золотые слова. Только я бы поправил: не только ETL, но и ELT

У меня девушка сейчас на этом этапе.

Ilya-Shutov Автор вопроса
Дмитрий Володин
Золотые слова. Только я бы поправил: не только ETL...

К теме ETL. Спасибо всем за вопросы, они не пропали никуда, но были аккуратны сложены. Публикацию, о которой упоминал, завершил. Про возможности радикального ускорения процесса ETL были не пустые слова. Если кто-то увидит что-либо знакомое — совпадения случайны, данные максимально обезличены или искажены. https://habr.com/ru/post/574110/

Ilya-Shutov Автор вопроса
Andrey
плюсанул, вижу много знакомых букав

если встретятся ошибки — буду благодарен замечаниям. подготовка текста для хабра — это просто ужас какой-то. нечеловеческий редактор. Новый еще хуже старого.

Ilya Shutov
К теме ETL. Спасибо всем за вопросы, они не пропа...

я вот прямо сейчас табличку с данными из PDF вытягивал с помощью tabulizer.

Ilya Shutov
К теме ETL. Спасибо всем за вопросы, они не пропа...

«Полагаете тема надумана? Для примера берем открытый «Единый реестр субъектов малого и среднего предпринимательства», ~6.5K XML файлов, ~46Гб сырых данных.» … с учётом того, что этот реестр дополняется раз в месяц и не на 46Гб, а на 3гб - тема скорее надумана))) впрочем, было бы интересно узнать насколько xpath быстрее

Ilya-Shutov Автор вопроса
Dm Kb
«Полагаете тема надумана? Для примера берем открыт...

Распакованный - 46 гиг. Можно проверить самостоятельно.

Ilya Shutov
Распакованный - 46 гиг. Можно проверить самостояте...

Это так, но его один раз в жизни можно спарсить в табличку и нет особой разницы: будет этот процесс длиться 4 часа или 16

Ilya-Shutov Автор вопроса
Ilya Shutov
а что не так написано?

Да все правильно написано. Просто я с именно этой задачей сталкивался, я даже знаю XPath немного, но мне даже в голову не пришло его использовать т.к. нет в этой задаче большой необходимости в оптимизации. Засунул в R и через 24 часа получил результат … потом раз в месяц запускаем скрипт на 20 минут на новую выгрузку… можно ли быстрее? Да, можно, но зачем?

Ilya-Shutov Автор вопроса
Dm Kb
Да все правильно написано. Просто я с именно этой ...

А так можно за минут 30-60 управиться на многопроцессорной машине. Но если не требуется, то можно и не задумываться

Ilya-Shutov Автор вопроса
Dm Kb
Да все правильно написано. Просто я с именно этой ...

Разве я должен сказать «зачем»? Это каждый сам для себя решает.

Ilya Shutov
Java …

ага, но тут простой PDF и табличка, лень копипастом было заниматься

Ilya Shutov
Java …

исходник и data.frame

Ilya Shutov
К теме ETL. Спасибо всем за вопросы, они не пропа...

Задача преобразования данных в удобочитаемый формат и задача аналитики должны быть физически разнесены Показать бы эту статью раньше в моей компании, а то приходилось объяснять, почему это разные задачи и параллельно одним человеком не решаются., но это так, к слову ... Спасибо за статью!

Юрий
Задача преобразования данных в удобочитаемый форма...

В таких случаях можно получить отсрочку по дедлайну на неделю))

Михаил Мосесов
В таких случаях можно получить отсрочку по дедлайн...

мне не давали, требовали уже сразу аналитику и визуализацию, когда данные действительно "грязные" и их нашли на помойке ... но это отдельная история

Юрий
мне не давали, требовали уже сразу аналитику и виз...

В книге h2o (которую кто-то из админов переводил) же есть шутка на эту тему. Что 80% времени работы аналитика - обработка грязных данных, а 20% - жалобы на эти данные))

Ilya Shutov
К теме ETL. Спасибо всем за вопросы, они не пропа...

Ну ладно, убедили, когда в следующий раз потребуется лезть в жирный JSON, вместо RJSONIO/jsonlite загляну в jqr.

Ilya Shutov
К теме ETL. Спасибо всем за вопросы, они не пропа...

спасибо за статью! поймал даже несколько инсайтов. технически в более зарегулированных отраслях (ака фарма и подобные) так вот играться в выбором не получится и обычно набор инструментов достаточно жестко предопределен. Если говорить об R, то вот буквально вплоть до создания собственного "валидированного" (что бы под этим ни понимали) репозитория с одобренными пакетами. Но с развитием всяких wearables, real world evidence и т.п. (иными словами потоковых или менее структурированных данных), возможно, инструментарий будет расширяться. Когда старые методы будут давать слишком большой overhead.

Ed P
спасибо за статью! поймал даже несколько инсайтов....

Да, у меня однажды просил консультацию товарищ, которому надо было решать задачи строго в базовом R, без всяких там пакетов. Веселая гимнастика для ума, скажу я вам!

Похожие вопросы

Обсуждают сегодня

Anyone here suffers from unexplained aural migraines, who would be up for talking for a bit? Doesn't *have* to be aural, but I am not asking about headaches, I mean actual mi...
Martin Rys
55
Вопрос по WIN32: Насколько я понимаю то все функции win32 привязаны к объектам операционной системы. Например консоль, файл, кисть, окна итд. Следовательно функции win32 упра...
Tommy Vercetti
6
Hello, can I install macOS and run flutter on a virtual machine? Is it possible to print for iphone?
Mazones
11
кто-то пользуется компонентами rx ? как их лучше ставить, через OPM? (lazarus)
Iluha Companets
15
В смысле более затратная? Общая стоимость владения лошадью меньше, чем автомобиля. В среднем.
Sergej R
10
подскажите пожалуйста, как мне освободить результат записанный в переменную result? в чем проблема подскажите если МОЖЕТЕ?
Михаил Helper
28
есть тут кто-то , кто только начал изучать си? если проходите курс на степике или как-то сами изучаете, пишите, может, скооперируемся?..
Eule
25
я не магистр хаскеля, но разве не может лейзи тип конвертнуться в не-лейзи запросив вычисление содержимого прям при инициализации?
deadgnom32 λ madao
100
Слушайте, ещё такая интересная задачка. Сделан аудит действий пользователей через триггеры в базе, соответственно каждый пользователь имеет свой логин и пароль в базе. Это пре...
Сергей Бычков
12
Скажите, тут нет проблемы? IMyInterface1 = interface function GetInterface2: IInterface2; ... function TMyInterface.GetInterface2: IInterface2; begin Result := TI...
Ruslan aka DUDE
18
Карта сайта