184 похожих чатов

Так как лучше всего заливать данные например из MSSQL в

ClickHouse, используя питон?

19 ответов

86 просмотров

быстрее всего через bcp экспортировать в TSV и заливать через clickhouse-client https://docs.microsoft.com/ru-ru/sql/relational-databases/import-export/import-and-export-bulk-data-by-using-the-bcp-utility-sql-server?view=sql-server-ver15 если одноразово если нет, то можно и через python нормально большими батчами

Slach [altinity]
быстрее всего через bcp экспортировать в TSV и зал...

да, но bcp не умеет экранировать, поэтому можно убить кучу времени на него впустую. Я пробовал с одним клиентом, в итоге написали генератор CSV файлов на go который читал MSSQL и писал CSV. python конечно тут использовать бессмысленно, только CPU насиловать

Vsevolod- Автор вопроса
Vsevolod
а если из вертики? Тоже через TSV?

я из вертики импорчу как TSV

Vsevolod
а если из вертики? Тоже через TSV?

по моему личному опыту из вертики быстро и удобно экспортировать в паркет.

Denny [Altinity]
я из вертики импорчу как TSV

а по скорости как? я может что делал не так, но экспорт в csv долго работал

Abazhurrr Bazhukhin
а по скорости как? я может что делал не так, но эк...

быстро, я не мерял особо, я делаю так echo "select * from " |Vsql -q -t -P format=unaligned | clickhouse-client

Vsevolod- Автор вопроса
Denny [Altinity]
я из вертики импорчу как TSV

а через пандас датафрейм имеет смысл пробовать или это плохая идея? Без файлов.

Vsevolod
а через пандас датафрейм имеет смысл пробовать или...

есть какой-то https://github.com/kszucs/pandahouse я не проверял

попробуйте datax

Vsevolod- Автор вопроса
Vsevolod
А что это?

https://github.com/alibaba/DataX/projects

мы используем несколько способов: 1) выгружаем через bcp из mssql и через clickhouse-client ипорт файла - очень быстро и просто, не нужно писать код 2) через DAG в airflow, пришлось написать operator для перекачки данных из mssql > clickhouse

Vsevolod- Автор вопроса
Bender Rodriguez
мы используем несколько способов: 1) выгружаем чер...

Интересует наиболее быстрые по времени варианты, объемы довольно приличные

Vsevolod
Интересует наиболее быстрые по времени варианты, о...

То, о чем говорил @den_crane, - это и есть быстрый по времени вариант отчасти, не требующий инструментов сверху

Мы из MSSQL тянем через insert select from jdbc(…)

Vsevolod
и как оно?

работает. Мы юзаем только копирование в лоб. Максимум с where version > XXX, полет нормальный. Про скорость не скажу - не меряли. Но у нас в mssql таблицы до 50М записей. Как на бОльших обьемах будет - не знаю

Похожие вопросы

Обсуждают сегодня

Господа, а что сейчас вообще с рынком труда на делфи происходит? Какова ситуация?
Rꙮman Yankꙮvsky
29
А вообще, что может смущать в самой Julia - бы сказал, что нет единого стандартного подхода по многим моментам, поэтому многое выглядит как "хаки" и произвол. Короче говоря, с...
Viktor G.
2
30500 за редактор? )
Владимир
47
а через ESC-код ?
Alexey Kulakov
29
Чёт не понял, я ж правильной функцией воспользовался чтобы вывести отладочную информацию? но что-то она не ловится
notme
18
У меня есть функция где происходит это: write_bit(buffer, 1); write_bit(buffer, 0); write_bit(buffer, 1); write_bit(buffer, 1); write_bit(buffer, 1); w...
~
14
Добрый день! Скажите пожалуйста, а какие программы вы бы рекомендовали написать для того, чтобы научиться управлять памятью? Можно написать динамический массив, можно связный ...
Филипп
7
Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
Ребят в СИ можно реализовать ООП?
Николай
33
https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_h_common.erl#L174 https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_olp.erl#L76 15 лет назад...
Maksim Lapshin
20
Карта сайта