Почему ETL? Потому что это вход. Что в конец лезть,

Question

R (язык программирования)

Ilya Shutov

Почему ETL? Потому что это вход. Что в конец лезть,

если в начале ахтунг?

#programming #r #russian

0

21.08.2021

27 ответов

5 просмотров

Alexander Semenov

У меня девушка сейчас на этом этапе.

0

21.08.2021

Ilya Shutov Автор вопроса

Дмитрий Володин
Золотые слова. Только я бы поправил: не только ETL...

К теме ETL. Спасибо всем за вопросы, они не пропали никуда, но были аккуратны сложены. Публикацию, о которой упоминал, завершил. Про возможности радикального ускорения процесса ETL были не пустые слова. Если кто-то увидит что-либо знакомое — совпадения случайны, данные максимально обезличены или искажены. https://habr.com/ru/post/574110/

0

22.08.2021

helby

Ilya Shutov
К теме ETL. Спасибо всем за вопросы, они не пропа...

Наконец то новая статья)

0

22.08.2021

Andrey

Ilya Shutov
К теме ETL. Спасибо всем за вопросы, они не пропа...

плюсанул, вижу много знакомых букав

0

22.08.2021

Ilya Shutov Автор вопроса

Andrey
плюсанул, вижу много знакомых букав

если встретятся ошибки — буду благодарен замечаниям. подготовка текста для хабра — это просто ужас какой-то. нечеловеческий редактор. Новый еще хуже старого.

0

22.08.2021

Юрий

Ilya Shutov
К теме ETL. Спасибо всем за вопросы, они не пропа...

я вот прямо сейчас табличку с данными из PDF вытягивал с помощью tabulizer.

0

22.08.2021

Dm Kb

Ilya Shutov
К теме ETL. Спасибо всем за вопросы, они не пропа...

«Полагаете тема надумана? Для примера берем открытый «Единый реестр субъектов малого и среднего предпринимательства», ~6.5K XML файлов, ~46Гб сырых данных.» … с учётом того, что этот реестр дополняется раз в месяц и не на 46Гб, а на 3гб - тема скорее надумана))) впрочем, было бы интересно узнать насколько xpath быстрее

0

22.08.2021

Ilya Shutov Автор вопроса

Dm Kb
«Полагаете тема надумана? Для примера берем открыт...

Распакованный - 46 гиг. Можно проверить самостоятельно.

0

22.08.2021

Dm Kb

Ilya Shutov
Распакованный - 46 гиг. Можно проверить самостояте...

Это так, но его один раз в жизни можно спарсить в табличку и нет особой разницы: будет этот процесс длиться 4 часа или 16

0

22.08.2021

Ilya Shutov Автор вопроса

Dm Kb
Это так, но его один раз в жизни можно спарсить в ...

а что не так написано?

0

22.08.2021

Dm Kb

Ilya Shutov
а что не так написано?

Да все правильно написано. Просто я с именно этой задачей сталкивался, я даже знаю XPath немного, но мне даже в голову не пришло его использовать т.к. нет в этой задаче большой необходимости в оптимизации. Засунул в R и через 24 часа получил результат … потом раз в месяц запускаем скрипт на 20 минут на новую выгрузку… можно ли быстрее? Да, можно, но зачем?

0

22.08.2021

Ilya Shutov Автор вопроса

Dm Kb
Да все правильно написано. Просто я с именно этой ...

А так можно за минут 30-60 управиться на многопроцессорной машине. Но если не требуется, то можно и не задумываться

0

22.08.2021

Ilya Shutov Автор вопроса

Dm Kb
Да все правильно написано. Просто я с именно этой ...

Разве я должен сказать «зачем»? Это каждый сам для себя решает.

0

22.08.2021

Ilya Shutov Автор вопроса

Юрий
я вот прямо сейчас табличку с данными из PDF вытяг...

Java …

0

22.08.2021

Юрий

Ilya Shutov
Java …

ага, но тут простой PDF и табличка, лень копипастом было заниматься

0

22.08.2021

Юрий

Ilya Shutov
Java …

0

22.08.2021

Юрий

Ilya Shutov
Java …

исходник и data.frame

0

22.08.2021

Юрий

Ilya Shutov
К теме ETL. Спасибо всем за вопросы, они не пропа...

Задача преобразования данных в удобочитаемый формат и задача аналитики должны быть физически разнесены Показать бы эту статью раньше в моей компании, а то приходилось объяснять, почему это разные задачи и параллельно одним человеком не решаются., но это так, к слову ... Спасибо за статью!

0

22.08.2021

Михаил Мосесов

Юрий
Задача преобразования данных в удобочитаемый форма...

В таких случаях можно получить отсрочку по дедлайну на неделю))

0

22.08.2021

Юрий

Михаил Мосесов
В таких случаях можно получить отсрочку по дедлайн...

мне не давали, требовали уже сразу аналитику и визуализацию, когда данные действительно "грязные" и их нашли на помойке ... но это отдельная история

0

22.08.2021

Дмитрий Володин

Юрий
мне не давали, требовали уже сразу аналитику и виз...

В книге h2o (которую кто-то из админов переводил) же есть шутка на эту тему. Что 80% времени работы аналитика - обработка грязных данных, а 20% - жалобы на эти данные))

0

22.08.2021

Юрий

Дмитрий Володин
В книге h2o (которую кто-то из админов переводил) ...

да, это известно :) переводил @biostat_r

0

22.08.2021

Vladimir Volokhonsky

Ilya Shutov
К теме ETL. Спасибо всем за вопросы, они не пропа...

Ну ладно, убедили, когда в следующий раз потребуется лезть в жирный JSON, вместо RJSONIO/jsonlite загляну в jqr.

0

22.08.2021

Ed P

Ilya Shutov
К теме ETL. Спасибо всем за вопросы, они не пропа...

спасибо за статью! поймал даже несколько инсайтов. технически в более зарегулированных отраслях (ака фарма и подобные) так вот играться в выбором не получится и обычно набор инструментов достаточно жестко предопределен. Если говорить об R, то вот буквально вплоть до создания собственного "валидированного" (что бы под этим ни понимали) репозитория с одобренными пакетами. Но с развитием всяких wearables, real world evidence и т.п. (иными словами потоковых или менее структурированных данных), возможно, инструментарий будет расширяться. Когда старые методы будут давать слишком большой overhead.

0

22.08.2021

Vladimir Volokhonsky

Ed P
спасибо за статью! поймал даже несколько инсайтов....

Да, у меня однажды просил консультацию товарищ, которому надо было решать задачи строго в базовом R, без всяких там пакетов. Веселая гимнастика для ума, скажу я вам!

0

22.08.2021

Михаил Ad.fesha

Vladimir Volokhonsky
Да, у меня однажды просил консультацию товарищ, ко...

А свои самописные пакеты подходят?

0

22.08.2021

Дмитрий Володин · Accepted Answer

Дмитрий Володин

Золотые слова. Только я бы поправил: не только ETL, но и ELT

0

21.08.2021

169 похожих чатов

Почему ETL? Потому что это вход. Что в конец лезть,

27 ответов

Похожие вопросы