из csv файла со строками типа:
timestamp,tag, A=<значение>
...
timestamp, tag, B=<значение>
...
положить данные в таблицу КХ со структурой:
(timestamp, tag, A, B)
Засада в том, что строки с A и B для совпадающих значений timestamp,tag разбросаны случайно по csv файлу. gzip-нутых csv данных порядка 50-100 гигов.
Как лучше это сделать?
Пока надумал такое :
1) grep A < file | clickhouse-local -S ... -if CSV -q 'SELECT ... format CSV ' | clickhouse-client —query="INSERT INTO DB.tableA FORMAT CSV"
2) grep B < file | clickhouse-local -S ... -if CSV -q 'SELECT ... format CSV' | clickhouse-client —query="INSERT INTO DB.tableB FORMAT CSV"
3) INSERT INTO FinalTable FROM SELECT timestamp, tag, A, B FROM tableA INNER JOIN tableB USING timestamp, tag
4) DROP table tableA; DROP table tableB
Или есть более оптимальный КХ-way способ?
По аналогии https://stackoverflow.com/questions/31820281/linux-group-by-date-column-and-show-count
Какого типа a и b и есть ли какие-нибудь характеристики по их физической близости друг к другу на диске?
Обсуждают сегодня