169 похожих чатов

Почему ETL? Потому что это вход. Что в конец лезть,

если в начале ахтунг?

27 ответов

21 просмотр

Золотые слова. Только я бы поправил: не только ETL, но и ELT

У меня девушка сейчас на этом этапе.

Ilya-Shutov Автор вопроса
Дмитрий Володин
Золотые слова. Только я бы поправил: не только ETL...

К теме ETL. Спасибо всем за вопросы, они не пропали никуда, но были аккуратны сложены. Публикацию, о которой упоминал, завершил. Про возможности радикального ускорения процесса ETL были не пустые слова. Если кто-то увидит что-либо знакомое — совпадения случайны, данные максимально обезличены или искажены. https://habr.com/ru/post/574110/

Ilya-Shutov Автор вопроса
Andrey
плюсанул, вижу много знакомых букав

если встретятся ошибки — буду благодарен замечаниям. подготовка текста для хабра — это просто ужас какой-то. нечеловеческий редактор. Новый еще хуже старого.

Ilya Shutov
К теме ETL. Спасибо всем за вопросы, они не пропа...

я вот прямо сейчас табличку с данными из PDF вытягивал с помощью tabulizer.

Ilya Shutov
К теме ETL. Спасибо всем за вопросы, они не пропа...

«Полагаете тема надумана? Для примера берем открытый «Единый реестр субъектов малого и среднего предпринимательства», ~6.5K XML файлов, ~46Гб сырых данных.» … с учётом того, что этот реестр дополняется раз в месяц и не на 46Гб, а на 3гб - тема скорее надумана))) впрочем, было бы интересно узнать насколько xpath быстрее

Ilya-Shutov Автор вопроса
Dm Kb
«Полагаете тема надумана? Для примера берем открыт...

Распакованный - 46 гиг. Можно проверить самостоятельно.

Ilya Shutov
Распакованный - 46 гиг. Можно проверить самостояте...

Это так, но его один раз в жизни можно спарсить в табличку и нет особой разницы: будет этот процесс длиться 4 часа или 16

Ilya-Shutov Автор вопроса
Ilya Shutov
а что не так написано?

Да все правильно написано. Просто я с именно этой задачей сталкивался, я даже знаю XPath немного, но мне даже в голову не пришло его использовать т.к. нет в этой задаче большой необходимости в оптимизации. Засунул в R и через 24 часа получил результат … потом раз в месяц запускаем скрипт на 20 минут на новую выгрузку… можно ли быстрее? Да, можно, но зачем?

Ilya-Shutov Автор вопроса
Dm Kb
Да все правильно написано. Просто я с именно этой ...

А так можно за минут 30-60 управиться на многопроцессорной машине. Но если не требуется, то можно и не задумываться

Ilya-Shutov Автор вопроса
Dm Kb
Да все правильно написано. Просто я с именно этой ...

Разве я должен сказать «зачем»? Это каждый сам для себя решает.

Ilya Shutov
Java …

ага, но тут простой PDF и табличка, лень копипастом было заниматься

Ilya Shutov
Java …

исходник и data.frame

Ilya Shutov
К теме ETL. Спасибо всем за вопросы, они не пропа...

Задача преобразования данных в удобочитаемый формат и задача аналитики должны быть физически разнесены Показать бы эту статью раньше в моей компании, а то приходилось объяснять, почему это разные задачи и параллельно одним человеком не решаются., но это так, к слову ... Спасибо за статью!

Юрий
Задача преобразования данных в удобочитаемый форма...

В таких случаях можно получить отсрочку по дедлайну на неделю))

Михаил Мосесов
В таких случаях можно получить отсрочку по дедлайн...

мне не давали, требовали уже сразу аналитику и визуализацию, когда данные действительно "грязные" и их нашли на помойке ... но это отдельная история

Юрий
мне не давали, требовали уже сразу аналитику и виз...

В книге h2o (которую кто-то из админов переводил) же есть шутка на эту тему. Что 80% времени работы аналитика - обработка грязных данных, а 20% - жалобы на эти данные))

Ilya Shutov
К теме ETL. Спасибо всем за вопросы, они не пропа...

Ну ладно, убедили, когда в следующий раз потребуется лезть в жирный JSON, вместо RJSONIO/jsonlite загляну в jqr.

Ilya Shutov
К теме ETL. Спасибо всем за вопросы, они не пропа...

спасибо за статью! поймал даже несколько инсайтов. технически в более зарегулированных отраслях (ака фарма и подобные) так вот играться в выбором не получится и обычно набор инструментов достаточно жестко предопределен. Если говорить об R, то вот буквально вплоть до создания собственного "валидированного" (что бы под этим ни понимали) репозитория с одобренными пакетами. Но с развитием всяких wearables, real world evidence и т.п. (иными словами потоковых или менее структурированных данных), возможно, инструментарий будет расширяться. Когда старые методы будут давать слишком большой overhead.

Ed P
спасибо за статью! поймал даже несколько инсайтов....

Да, у меня однажды просил консультацию товарищ, которому надо было решать задачи строго в базовом R, без всяких там пакетов. Веселая гимнастика для ума, скажу я вам!

Похожие вопросы

Обсуждают сегодня

Господа, а что сейчас вообще с рынком труда на делфи происходит? Какова ситуация?
Rꙮman Yankꙮvsky
29
А вообще, что может смущать в самой Julia - бы сказал, что нет единого стандартного подхода по многим моментам, поэтому многое выглядит как "хаки" и произвол. Короче говоря, с...
Viktor G.
2
30500 за редактор? )
Владимир
47
а через ESC-код ?
Alexey Kulakov
29
Чёт не понял, я ж правильной функцией воспользовался чтобы вывести отладочную информацию? но что-то она не ловится
notme
18
У меня есть функция где происходит это: write_bit(buffer, 1); write_bit(buffer, 0); write_bit(buffer, 1); write_bit(buffer, 1); write_bit(buffer, 1); w...
~
14
Добрый день! Скажите пожалуйста, а какие программы вы бы рекомендовали написать для того, чтобы научиться управлять памятью? Можно написать динамический массив, можно связный ...
Филипп
7
Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
Ребят в СИ можно реализовать ООП?
Николай
33
https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_h_common.erl#L174 https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_olp.erl#L76 15 лет назад...
Maksim Lapshin
20
Карта сайта