Так как лучше всего заливать данные например из MSSQL в

Question

ClickHouse не тормозит

Vsevolod

Так как лучше всего заливать данные например из MSSQL в

ClickHouse, используя питон?

#backend #clickhouse #database #devops #programming #russian

0

06.07.2021

19 ответов

86 просмотров

Denny [Altinity]

Slach [altinity]
быстрее всего через bcp экспортировать в TSV и зал...

да, но bcp не умеет экранировать, поэтому можно убить кучу времени на него впустую. Я пробовал с одним клиентом, в итоге написали генератор CSV файлов на go который читал MSSQL и писал CSV. python конечно тут использовать бессмысленно, только CPU насиловать

0

06.07.2021

Vsevolod Автор вопроса

Slach [altinity]
быстрее всего через bcp экспортировать в TSV и зал...

а если из вертики? Тоже через TSV?

0

06.07.2021

Denny [Altinity]

Vsevolod
а если из вертики? Тоже через TSV?

я из вертики импорчу как TSV

0

06.07.2021

Abazhurrr Bazhukhin

Vsevolod
а если из вертики? Тоже через TSV?

по моему личному опыту из вертики быстро и удобно экспортировать в паркет.

0

06.07.2021

Abazhurrr Bazhukhin

Denny [Altinity]
я из вертики импорчу как TSV

а по скорости как? я может что делал не так, но экспорт в csv долго работал

0

06.07.2021

Denny [Altinity]

Abazhurrr Bazhukhin
а по скорости как? я может что делал не так, но эк...

быстро, я не мерял особо, я делаю так echo "select * from " |Vsql -q -t -P format=unaligned | clickhouse-client

0

06.07.2021

Slach [altinity]

Abazhurrr Bazhukhin
по моему личному опыту из вертики быстро и удобно ...

Parquet на ClickHouse импортится сейчас медленее TSV

0

06.07.2021

Vsevolod Автор вопроса

Denny [Altinity]
я из вертики импорчу как TSV

а через пандас датафрейм имеет смысл пробовать или это плохая идея? Без файлов.

0

06.07.2021

Denny [Altinity]

Vsevolod
а через пандас датафрейм имеет смысл пробовать или...

есть какой-то https://github.com/kszucs/pandahouse я не проверял

0

06.07.2021

Ildar Garaev

попробуйте datax

0

07.07.2021

Vsevolod Автор вопроса

Ildar Garaev
попробуйте datax

А что это?

0

07.07.2021

Ildar Garaev

Vsevolod
А что это?

https://github.com/alibaba/DataX/projects

0

07.07.2021

Bender Rodriguez

мы используем несколько способов: 1) выгружаем через bcp из mssql и через clickhouse-client ипорт файла - очень быстро и просто, не нужно писать код 2) через DAG в airflow, пришлось написать operator для перекачки данных из mssql > clickhouse

0

07.07.2021

Vsevolod Автор вопроса

Bender Rodriguez
мы используем несколько способов: 1) выгружаем чер...

Интересует наиболее быстрые по времени варианты, объемы довольно приличные

0

07.07.2021

critskiy

Vsevolod
Интересует наиболее быстрые по времени варианты, о...

То, о чем говорил @den_crane, - это и есть быстрый по времени вариант отчасти, не требующий инструментов сверху

0

07.07.2021

Oleksandr Ryzhenko

Мы из MSSQL тянем через insert select from jdbc(…)

0

07.07.2021

Vsevolod Автор вопроса

Oleksandr Ryzhenko
Мы из MSSQL тянем через insert select from jdbc(…)

и как оно?

0

07.07.2021

Oleksandr Ryzhenko

Vsevolod
и как оно?

работает. Мы юзаем только копирование в лоб. Максимум с where version > XXX, полет нормальный. Про скорость не скажу - не меряли. Но у нас в mssql таблицы до 50М записей. Как на бОльших обьемах будет - не знаю

0

07.07.2021

Slach [altinity] · Accepted Answer

Slach [altinity]

быстрее всего через bcp экспортировать в TSV и заливать через clickhouse-client https://docs.microsoft.com/ru-ru/sql/relational-databases/import-export/import-and-export-bulk-data-by-using-the-bcp-utility-sql-server?view=sql-server-ver15 если одноразово если нет, то можно и через python нормально большими батчами

0

06.07.2021

184 похожих чатов

Так как лучше всего заливать данные например из MSSQL в

19 ответов

Похожие вопросы