Народ привет! А кто-то сталкивался с импортом сырых дынных? Нужна

Question

Народ привет! А кто-то сталкивался с импортом сырых дынных? Нужна

тулзовина, которая умеет распарсить данные, подобрать лучший типа для хранилища и может сгенерить мета-данные. Например в сырых данных есть leading zeros, но мы понимаем, что это bigint условно, а leading zeros - просто фича представления этих данных. Или процент вроде 49,67% можно смоделировать как float. 0.4967, а 49,67% - это представление. Хорошо бы иметь при этом метаданные, которые можно использовать дальше. Например инфу, что данная колонка - это процент в формате XX.XX%

#hadoop #russian #software

0

06.10.2023

3 ответов

46 просмотров

Denis Borovikov Автор вопроса

Сиплый
Проприетарные решения такое, вероятно, умеют. Мешо...

а open source есть что-то такое? как это вообще называется? data cleansing?

0

06.10.2023

BadRat

Denis Borovikov
а open source есть что-то такое? как это вообще на...

Data type/schema discovery?

0

06.10.2023

Сиплый · Accepted Answer

Проприетарные решения такое, вероятно, умеют. Мешок правил натравил на данные, и тулза схему правильную создала На практике я не доверяю таким решениям. Несколько проектов было на виду с мега-идеей любое рандомное говно парсить автомагически. Ничего не взлетело в итоге, только schema on read А для data discovery можно заливать все как стринг. Чтобы "осмотреться" типа

52 похожих чатов

Народ привет! А кто-то сталкивался с импортом сырых дынных? Нужна

3 ответов

Похожие вопросы