тулзовина, которая умеет распарсить данные, подобрать лучший типа для хранилища и может сгенерить мета-данные. Например в сырых данных есть leading zeros, но мы понимаем, что это bigint условно, а leading zeros - просто фича представления этих данных. Или процент вроде 49,67% можно смоделировать как float. 0.4967, а 49,67% - это представление. Хорошо бы иметь при этом метаданные, которые можно использовать дальше. Например инфу, что данная колонка - это процент в формате XX.XX%
Проприетарные решения такое, вероятно, умеют. Мешок правил натравил на данные, и тулза схему правильную создала На практике я не доверяю таким решениям. Несколько проектов было на виду с мега-идеей любое рандомное говно парсить автомагически. Ничего не взлетело в итоге, только schema on read А для data discovery можно заливать все как стринг. Чтобы "осмотреться" типа
а open source есть что-то такое? как это вообще называется? data cleansing?
Data type/schema discovery?
Обсуждают сегодня