если в начале ахтунг?
Золотые слова. Только я бы поправил: не только ETL, но и ELT
У меня девушка сейчас на этом этапе.
К теме ETL. Спасибо всем за вопросы, они не пропали никуда, но были аккуратны сложены. Публикацию, о которой упоминал, завершил. Про возможности радикального ускорения процесса ETL были не пустые слова. Если кто-то увидит что-либо знакомое — совпадения случайны, данные максимально обезличены или искажены. https://habr.com/ru/post/574110/
Наконец то новая статья)
плюсанул, вижу много знакомых букав
если встретятся ошибки — буду благодарен замечаниям. подготовка текста для хабра — это просто ужас какой-то. нечеловеческий редактор. Новый еще хуже старого.
я вот прямо сейчас табличку с данными из PDF вытягивал с помощью tabulizer.
«Полагаете тема надумана? Для примера берем открытый «Единый реестр субъектов малого и среднего предпринимательства», ~6.5K XML файлов, ~46Гб сырых данных.» … с учётом того, что этот реестр дополняется раз в месяц и не на 46Гб, а на 3гб - тема скорее надумана))) впрочем, было бы интересно узнать насколько xpath быстрее
Распакованный - 46 гиг. Можно проверить самостоятельно.
Это так, но его один раз в жизни можно спарсить в табличку и нет особой разницы: будет этот процесс длиться 4 часа или 16
а что не так написано?
Да все правильно написано. Просто я с именно этой задачей сталкивался, я даже знаю XPath немного, но мне даже в голову не пришло его использовать т.к. нет в этой задаче большой необходимости в оптимизации. Засунул в R и через 24 часа получил результат … потом раз в месяц запускаем скрипт на 20 минут на новую выгрузку… можно ли быстрее? Да, можно, но зачем?
А так можно за минут 30-60 управиться на многопроцессорной машине. Но если не требуется, то можно и не задумываться
Разве я должен сказать «зачем»? Это каждый сам для себя решает.
ага, но тут простой PDF и табличка, лень копипастом было заниматься
Задача преобразования данных в удобочитаемый формат и задача аналитики должны быть физически разнесены Показать бы эту статью раньше в моей компании, а то приходилось объяснять, почему это разные задачи и параллельно одним человеком не решаются., но это так, к слову ... Спасибо за статью!
В таких случаях можно получить отсрочку по дедлайну на неделю))
мне не давали, требовали уже сразу аналитику и визуализацию, когда данные действительно "грязные" и их нашли на помойке ... но это отдельная история
В книге h2o (которую кто-то из админов переводил) же есть шутка на эту тему. Что 80% времени работы аналитика - обработка грязных данных, а 20% - жалобы на эти данные))
да, это известно :) переводил @biostat_r
Ну ладно, убедили, когда в следующий раз потребуется лезть в жирный JSON, вместо RJSONIO/jsonlite загляну в jqr.
спасибо за статью! поймал даже несколько инсайтов. технически в более зарегулированных отраслях (ака фарма и подобные) так вот играться в выбором не получится и обычно набор инструментов достаточно жестко предопределен. Если говорить об R, то вот буквально вплоть до создания собственного "валидированного" (что бы под этим ни понимали) репозитория с одобренными пакетами. Но с развитием всяких wearables, real world evidence и т.п. (иными словами потоковых или менее структурированных данных), возможно, инструментарий будет расширяться. Когда старые методы будут давать слишком большой overhead.
Да, у меня однажды просил консультацию товарищ, которому надо было решать задачи строго в базовом R, без всяких там пакетов. Веселая гимнастика для ума, скажу я вам!
А свои самописные пакеты подходят?
Обсуждают сегодня