184 похожих чатов

React — русскоговорящее с...

Android Developers

Vue.js — русскоговорящее ...

Telegram Developers

Node.js — русскоговорящее...

DevOps — русскоговорящее ...

JavaScript Noobs — сообще...

Angular - русскоговорящее...

Верстка сайтов HTML/CSS/J...

Kubernetes — русскоговоря...

Битрикс для разработчиков

MODX. Русскоязычное сообщ...

pgsql – PostgreSQL

iOS Developers — русского...

ClickHouse не тормозит

Rust — русскоговорящее со...

JavaScript — русскоговоря...

React Native — русскогово...

Docker — русскоговорящее ...

HTML/CSS — русскоговоряще...

Python beginners

🐧 RU.UBUNTU — Официальное...

Kotlin Community

Чат экстремального погром...

Scala User Group

Клуб Vue.js-разработчиков

Xamarin Developers (MAUI,...

Svelte [svelt] - All abou...

Системное администрирован...

Nuxt.js | Vue SSR

var chat = new Chat();

Data Science Chat

Ассемблер

Android Architecture

Laravel для начинающих

Церковь метрик

QA — русскоговорящее сооб...

DBA - русскоговорящее соо...

PostgreSQL + 1C + Linux

R (язык программирования)

MongoDB Russian

Yandex Cloud - Официальны...

Big Data Science :: AI / ...

Delphi & Lazarus

Solidity Development

Evolution CMS официальное...

pro.net (former COM+)

OpenStreetMap RU

Visual Studio Code — русс...

GraphQL — русскоговорящее...

IDE и редакторы — русског...

OpenCartForum - 🇺🇦🇪🇺Чат O...

Angular.js (1.x) — русско...

Flutter Developers — русс...

AI / Искусственный Интелл...

Laravel Framework Russian...

Чат — Верстка Сайтов и Фр...

Java Underground

Natural Language Processi...

SqlCom.ru - сообщество MS...

Delphi Community

Server Side Swift Develop...

Autohotkey_RU ( v1 & v2 )

PHP DevConf KZ🇰🇿

pro.rb (Ruby/Rails / RU)

Odoo talks & fun

Software Design/Architect...

AndroidDev Pro:: Професси...

WordPress for developers

PowerShellRus - о Powersh...

Эльбрусы и с чем их едят

Java/Kotlin and more

pro.buildsystems

React: русскоязычное сооб...

Python для анализа данных

Скрипты Гугл, Таблицы, Go...

Compiler Development

firebase_ru — русскоговор...

RU.CRYPTOGRAPHY — Криптог...

pro.osdev - os developmen...

Это RabbitMQ

GameDev for Web

PostgreSQL (English)

Tilda Developers

RU.Docker — Официальное Р...

Emacs — русскоговорящее с...

FreePascal & Lazarus

Язык программирования Jul...

WordPress – русскоговорящ...

ReasonML и OCaml

WebAssembly — русскоговор...

ansible — русскоговорящее...

Сrystal Lang — русскогово...

Clojure — русскоговорящее...

macOS Developers — русско...

use Perl or die;

FORTH и родственные ЯП

Natural Language Processi...

DevSecOps - русскоговорящ...

Sequelize - community (en...

Elm Lang сообщество разра...

WordPress CodeRun

ReactiveX - русскоговорящ...

PureScript — русскоговоря...

Эликсир и Вунш

ClickHouse не тормозит

Добрый день, CREATE TABLE xxx (

name String,
ts UInt4,
type Int8 DEFAULT -1,
value Int8 DEFAULT -1
)
ENGINE = ReplacingMergeTree(ts)
PRIMARY KEY(name)
ORDER BY (name,type)
SETTINGS index_granularity = 1024;

Делаю запрос

select name,min(value) from xxx group by name order by name limit 10;

почему CH ( 21.1.10.3 ) сканирует всю таблицу и отменяет запрос по памяти?

Ведь name - это primary key и все данные лежат в одной/соседних гранулах достаточно только прочитать первые несколько гранул и выдать результат

#backend #clickhouse #database #devops #programming #russian

0

15.07.2021

37 ответов

18 просмотров

Slach [altinity]

ну наверное потому что у вас name очень высоко кардинальный и чтобы сделать GROUP BY name надо в памяти сделать здоровущую hash table в которой будут в качестве ключей все ваши name и только потом применить к этому limit и еще есть ньюанс min(value) для ReplacingMergeTree не имеете особого смысла попробуйте SELECT name, value FROM xxx FINAL ORDER BY name LIMIT 10

0

15.07.2021

это какая-то реальная задачи или синтетический пример для понимания работы ch? если name - это primary key зачем делать group by?

0

15.07.2021

Slach [altinity]
ну наверное потому что у вас name очень высоко кар...

там же ORDER BY (name,type) в таблице ключ сортировки.

0

15.07.2021

Slach [altinity]

Sergey Churin
там же ORDER BY (name,type) в таблице ключ сортиро...

это помогает при сортировке ORDER BY в запросе... и при выборке WHERE при GROUP BY это ничего не ускоряет

0

15.07.2021

Dmitry [Altinity] Titov

Sergey Churin
там же ORDER BY (name,type) в таблице ключ сортиро...

ну можете включить optimize_aggregation_in_order

0

15.07.2021

Slach [altinity]

Dmitry [Altinity] Titov
ну можете включить optimize_aggregation_in_order

если вылетает по памяти, не факт что поможет

0

15.07.2021

Slach [altinity]
это помогает при сортировке ORDER BY в запросе... ...

Я к тому, что ваш пример SELECT name, value FROM xxx FINAL ORDER BY name LIMIT 10 выдаст несколько результатов, если для одного name в таблице есть несколько type. А человеку, судя по его запросу, нужен один результат для каждого name, с минимальным value

0

15.07.2021

Nekto Автор вопроса

Slach [altinity]
ну наверное потому что у вас name очень высоко кар...

>и чтобы сделать GROUP BY name надо в памяти сделать здоровущую hash table хм, я тогда наверное не правильно представлял себе как CH хранит данные, я думал, что в грануле лежат все записи принадлежащие primary key, те нужно только прочитать строки с одинаковым ключом и дальше их можно уже выдавать, так как в других гранулах этого ключа быть не может >и еще есть ньюанс min(value) для ReplacingMergeTree не имеете особого смысла почему? Обратите внимание, кроме Primary key там в таблице есть еще ORDER BY с еще одиним полем, Предположим у нас есть работники Иванов/Петров, и переиодически мы их измеряем в талии,бедрах и груди (. и мы хотим узнать минимальный размер работника. Вроде min как раз для этого и подходит select * from xxx order by name; ┌─name───┬─ts─┬─type─┬─value─┐ │ Ivanov │ 1 │ 10 │ 100 │ │ Ivanov │ 1 │ 20 │ 200 │ │ Ivanov │ 1 │ 30 │ 300 │ │ Petrov │ 1 │ 30 │ 600 │ │ Petrov │ 1 │ 10 │ 400 │ │ Petrov │ 1 │ 20 │ 500 │ └────────┴────┴──────┴───────┘ select name,min(value) from xxx group by name order by name limit 10; ┌─name───┬─min(value)─┐ │ Ivanov │ 100 │ │ Petrov │ 400 │ └────────┴────────────┘ И таких "работников" у меня 500 миллионов , как найти минимальное значение среди всех измерений? те каким образом построить таблицу,

0

15.07.2021

Nekto Автор вопроса

Munir
это какая-то реальная задачи или синтетический при...

>если name - это primary key зачем делать group by? Обратитие внимание, помимо primary в таблице есть еще ORDER BY с дополнительным полем, именно это поле и дает несколько разных строк на поле name

0

15.07.2021

Nekto Автор вопроса

Nekto
>и чтобы сделать GROUP BY name надо в памяти сдела...

возможно я неправильно строю таблицу, опишу задачу может кто подскажит в какую сторону смотреть Есть 500 миллинов работников, мы мх измеряем в трех местах, раз в несколько дней. В один день например измерили всех в талии, в другой день всех измерили в бедрах. периодически нужно получать список всех работников с минимальным размером (не важно какого параметра) Две проблемы, которые пытаюсь решить 1) Как составить таблицу и запрос, чтобы они были как можно легче с точки зрения производительности 2) Как получить данные в клиента? клиент не может переварить 500 миллионов строк сразу. Мы используем подключение к CH как к Postgres серверу и изначально была идея делать запросы вида select ..... where name>'' order by name limit 100; select ..... where name>'<тут последнее значение из первого запроса>' order by name limit 100; так как полагал, что order by name (который primary key) - это дешевая операция, но видно, что это не так. По сути порядок записей не важен.

0

15.07.2021

Piotr Katvitski

Nekto
возможно я неправильно строю таблицу, опишу задачу...

насчёт вопроса 2: насколько я понимаю, пагинация в clickhouse делается через max_block_size. Вот пример для питонячего драйвера: https://clickhouse-driver.readthedocs.io/en/latest/quickstart.html#streaming-results

0

15.07.2021

Slach [altinity]

Nekto
>и чтобы сделать GROUP BY name надо в памяти сдела...

да наверное я не до конца разобрался извините

0

15.07.2021

Nekto
возможно я неправильно строю таблицу, опишу задачу...

если все что вам надо - получать сортированный список сотрудников по размеру талии, причем с пагинацией, причем сначала малые, то ваш order by (точнее primary key) и будет этим размером талии. Вот тогда выборка будет быстрой, и можно почти безнаказанно делать последовательные запросы с limit/offset.

0

15.07.2021

Nekto Автор вопроса

Boris
если все что вам надо - получать сортированный спи...

так у меня ведь не только размер талии, а еще два размера. и запросы могут быть дай минимальный размер, дай максимальный размер, дай разницу между размером талии и размером бедер. По сути любой запрос - это считать группу строк относящихся к одному человеку (3 строки на человека), как-то их обработать (min,max) и принять решение отдавать в клиента эту строку или нет

0

15.07.2021

Nekto
так у меня ведь не только размер талии, а еще два ...

если критерии выборки столь разнообразны, то от полной переборки таблицы вам никуда не уйти. Считаете свои миллиарды записей, и это будет тормозить на каждом запросе. В качестве альтернативы можете потратить дисковое пространство и сделать несколько MV с хранением, оптимизированным под каждый конкретный запрос. Т.е. сложные рассчеты/сортировки будут при вставках (и тормозить их), а не при выборке с пагинацией. Если вставка раз в день, то наверное пойдет. Но может у вас есть ещё нюансы, про которые вы пока не рассказали. Так-же можете посмотреть в сторону projections. Это экспериментальная фича, но суть именно та - оптимизация работы с подобной пачкой связанных MV.

0

15.07.2021

Nekto Автор вопроса

Boris
если критерии выборки столь разнообразны, то от по...

>то от полной переборки таблицы вам никуда не уйти. да с этим и не спорю, к этому и готовы. Сами данные занимают мало места (там везде Uint32, UInt64 только(, прочитать их полность с nvme диска - вообще не проблема (время нескольких минут) вопрос в том можно ли как-то ускорить запрос вида select <тут аггрегации над групой строк> from xxx where name > 'A' group by name order by name limit 100; Если данные расположены в упорядоченном по primary key порядке, то по сути нужно прочитать 300-600 строк (если предположить, что каждая вторая запись фильтруется) и отдать в клиента. А сейчас это приводит к почти полной вычитке базы

0

15.07.2021

Nekto
>то от полной переборки таблицы вам никуда не уйти...

с чего бы это 300 строк? Именно что для решения вашей задачи нужно прочитать 100% данных. И как вы сами пишете - это несколько минут. Вот столько и будет занимать каждый запрос. 300 строк - это 300 сотрудников. С чего вы взяли что в них будет искомый минимал? Почему не самый последний, с фамилией на на букву Я?

0

15.07.2021

Nekto Автор вопроса

Boris
с чего бы это 300 строк? Именно что для решения ...

Я возможно не понимаю, но моя логика вот такая - name у нас primary key, значит на него в памяти есть индекс (с засечками) и данные лежат в таком порядке Алексеев - row 1 Алексеев - row 2 Алексеев - row 3 Петров - row 1 Петров - row 2 Яблоков - row 1 Яблоков - row 2 .. Есть запрос select name,count(*) from xxx group by name where name > 'A' limit 2; 1) По индексу определяем, что читать нужно с Петрова. 2) Прочитали две строчки петрова, выдали в клиента - Петров, 2 3) Прочитаели две строчки Яблокова - выдали в клиента Яблоков,2 4) Два результата у нас есть, ровно столько сколько и просили, завершаем запрос. Зачем читать другие строки?

0

15.07.2021

Nekto
Я возможно не понимаю, но моя логика вот такая - ...

так вы же писали что хотели получить минимальную талию? Просто количество - это очень просто.

0

15.07.2021

Nekto Автор вопроса

Boris
так вы же писали что хотели получить минимальную т...

я хочу получить минимальный размер измерения у каждого сотрудника. Сравнивать этого сотрудника с другими мне не нужно. Да даже если отвлечься от размеров. Вот запрос select name,count(*) from xxx where name > 'A' group by name limit 2; Уходит в фулл скан, Ставим опцию SET optimize_aggregation_in_order = 1; Все начинает работать быстро, но нам еще нужно как-то упорядочивать данные, чтобы в следующем запросе не получить те же самые данные, добавляем order by select name,count(*) from xxx where name > 'A' group by name order by name limit 2; и снова уходим в фулл скан

0

15.07.2021

Dmitry [Altinity] Titov

Nekto
я хочу получить минимальный размер измерения у каж...

https://github.com/ClickHouse/ClickHouse/issues/21756 Ну ставьте лайки и тд тогда

0

15.07.2021

Dmitry [Altinity] Titov

Nekto
я хочу получить минимальный размер измерения у каж...

Зачем вам по две строки на сотрудника если нужен минимальный размер?

0

15.07.2021

Nekto Автор вопроса

Dmitry [Altinity] Titov
Зачем вам по две строки на сотрудника если нужен м...

Не совсем понял Вашего вопроса. У каждого сотрудника несколько строк, каждая строка это результат измерения разных данных проведенные в разние дни. В понедельник всем измерили талию, во вторник всем измерили грудь. В конце недели нужно получить цифру, какой минимальный размер у каждого сотрудника

0

15.07.2021

Nekto
>если name - это primary key зачем делать group b...

Order by не добавляет. Но ch не имеет constraint-ов, поэтому дубликаты могут быть. Поэтому да, груп бай там может быть, поэтому согласен, мой вопрос был лишним.

0

15.07.2021

Dmitry [Altinity] Titov

Nekto
я хочу получить минимальный размер измерения у каж...

>select name,count(*) from xxx where name > 'A' group by name order by name limit 2; Ну уходите не в фулл скан, а в фулл сортировку, это другое Во вторых если вы используете optimize_aggregation_in_order ORDER BY name скорее всего не нужен

0

15.07.2021

Nekto Автор вопроса

Dmitry [Altinity] Titov
>select name,count(*) from xxx where name > 'A' gr...

> а в фулл сортировку а сортировку чего? результатов или исходных строк? >Во вторых если вы используете optimize_aggregation_in_order ORDER BY name скорее всего не нужен вот это бы решило мою проблему, насколько на это безопасно закладываться? Это так задуманно или то, чтоORDER BY не нужен, это просто особенность реализации, которую завтра могут изменить?

0

15.07.2021

Dmitry [Altinity] Titov

Nekto
> а в фулл сортировку а сортировку чего? результа...

> вот это бы решило мою проблему, насколько на это безопасно закладываться? Это так задуманно или то, чтоORDER BY не нужен, это просто особенность реализации, которую завтра могут изменить? > насколько на это безопасно закладываться? Гарантий не дам, но думаю достаточно нормально. > Это так задуманно или то, чтоORDER BY не нужен, это просто особенность реализации, которую завтра могут изменить? Просто не сделана фича (я кидал ссылку на issue), что можно использовать комбинацию GROUP BY и ORDER BY in_order

0

15.07.2021

Nekto Автор вопроса

Dmitry [Altinity] Titov
> вот это бы решило мою проблему, насколько на эт...

ну тогда здорово, и еще один вопрос. В рамках одной версии клика - поведение всегда детерминировано? те если версию менять не планирую в следующие два года - то могу не беспокоится, что однажды этот запрос сработает неверно? (если конечно на баг какой-нить не напорюсь)

0

15.07.2021

Dmitry [Altinity] Titov

Nekto
ну тогда здорово, и еще один вопрос. В рамках од...

Да, ну разве что действительно баг. на самом деле для SELECT * FROM (SELECT * FROM table ORDER BY xx) Точно есть гарантии, что порядок сохраняется, так что не вижу причин, что бы он нарушался после GROUP BY in order

0

15.07.2021

Nekto Автор вопроса

Dmitry [Altinity] Titov
Да, ну разве что действительно баг. на самом деле...

👍

0

15.07.2021

Denny [Altinity]

Slach [altinity]
если вылетает по памяти, не факт что поможет

конечно поможет, у нас у одного клиента расход памяти с optimize_aggregation_in_order уменьшается в 200 раз, запрос правда медленнее в 20 раз. optimize_aggregation_in_order обрабатывает в streaming , идя по первичному ключу

0

15.07.2021

Denny [Altinity]

Nekto
>и чтобы сделать GROUP BY name надо в памяти сдела...

group by не использует первичный ключ (по умолчанию) потому что это медленнее, регулируется параметром который написали выше

0

15.07.2021

Nekto Автор вопроса

Denny [Altinity]
group by не использует первичный ключ (по умолчани...

спасибо, теперь понятно что было и что изменилось с включением настройки optimize_aggregation_in_order

0

15.07.2021

Dmitry [Altinity] Titov
>select name,count(*) from xxx where name > 'A' gr...

По-моему, на это можно полагаться только если у нас один шард и один поток. А так у нас может первым вернуться результат не самого первого в общей сортировке блока.

0

15.07.2021

Dmitry [Altinity] Titov

Sergey Churin
По-моему, на это можно полагаться только если у на...

> А так у нас может первым вернуться результат не самого первого в общей сортировке блока. обычный GROUP BY и ORDER BY (+ in_order) же делается с учетом шардов, так что с этой точки зрения никакой разницы

0

15.07.2021

Dmitry [Altinity] Titov
> А так у нас может первым вернуться результат не ...

ну вот допустим у нас один шард. И 2 потока. Первый поток прочитал первый блок данных в порядке order by таблицы, второй поток второй блок данных. Так получилось, что второй поток оказался быстрее первого и первым вернул результат. Если в самом запросе нет order by, то разве у нас КХ не выдаст результаты, которые вернул второй поток, если их достаточно по limit? Не дожидаясь первого потока. Ибо зачем?

0

15.07.2021

Dmitry [Altinity] Titov

Sergey Churin
ну вот допустим у нас один шард. И 2 потока. Первы...

Пока первый поток не отдаст данные дальше второй поток допустим будет отдыхать или сложит данные в памяти куда то. (одна из причин, почему aggregation_in_order может быть медленнее) Ну я к тому, что ваша проблема никак не относится к GROUP BY ORDER BY in_order Если бы было так просто, то оно бы вообще ни для каких запросов не работало

0

15.07.2021

Похожие вопросы

ClickHouse не тормозит / unhingedlunatic

Подписаться

Исходя из ваших комментариев, получается, что чтобы получить марты в CH из данных в PG, неправильно тянуть сырые данные в CH и там их обрабатывать, лепить справочники и джойни...

#backend #clickhouse #database #devops #programming #russian

12.11.2023

0

42 ответов

ClickHouse не тормозит / Maria Besedina

Подписаться

Доброе утро, коллеги! Может вы что-то подскажите по следующей ситуации. Загружаем словари в витрины в CH по следующему алгоритму: - создали 2 таблицы с одинаковой структурой: ...

#backend #clickhouse #database #devops #programming #russian

27.10.2023

0

27 ответов

ClickHouse не тормозит / 为什么要翻译 .

Подписаться

Всем привет, обновил clickhouse на локальном компьютере, теперь он не поднимается, валится с ошибкой: 2023.11.15 10:53:11.735595 [ 8069 ] {} <Error> Application: Code: 48. DB...

#backend #clickhouse #database #devops #programming #russian

15.11.2023

0

17 ответов

ClickHouse не тормозит / Алексей Чернов

Подписаться

Всем привет. В настоящее время в Клике происходит рассинхрон данных между таблицей и её проекцией, из-за чего запрос может вернуть одну и ту же строку с разными данными в зави...

#backend #clickhouse #database #devops #programming #russian

05.09.2023

0

2 ответов

ClickHouse не тормозит / Sergey Fedyanov

Подписаться

Добрый днь! Конфигурация: - k8s - ClickHouse Operator 0.12.0 provided by Altinity - ClickHouse server version 22.11.6 revision 54460. В манифесте: kind: "ClickHouseInstallati...

#backend #clickhouse #database #devops #programming #russian

06.09.2023

0

3 ответов

ClickHouse не тормозит / Sergey Smirnov

Подписаться

SSIS выгрузка из Clickhouse данных типа string. Висит на стороне SSIS. Вижу с помощью Wireshark, что Clickhouse отдает все правильно. SSIS висит на обработке столбца типа DT_T...

#backend #clickhouse #database #devops #programming #russian

14.06.2023

0

45 ответов

ClickHouse не тормозит / Clir

Подписаться

Добрый день. Много раз уже обсуждали проблему No active replica has part и зависшие парты в replication_queue. Всегда предлагаете решение detach+attach+system restart replica ...

#backend #clickhouse #database #devops #programming #russian

06.11.2023

0

28 ответов

ClickHouse не тормозит / Igor Gorbenko

Подписаться

Всем привет! Столкнулись с такой проблемой, связанной с чтением данных из S3. Мы читаем данные из parquet файлов, используя табличный движок S3 и вставляем в целевую таблицу д...

#backend #clickhouse #database #devops #programming #russian

22.08.2023

0

1 ответов

ClickHouse не тормозит / Асель Магжанова

Подписаться

Всем привет! помогите, пожалуйста, разобраться с проблемой: внеапно в логах появились ошибки вида: 0. DB::Exception::Exception(DB::Exception::MessageMasked&&, int, bool) @ 0xd...

#backend #clickhouse #database #devops #programming #russian

04.10.2023

0

7 ответов

ClickHouse не тормозит / Stas Dombrovskyi

Подписаться

Всем привет. Кто-то использует вот такой бутстрап схем/таблиц в кликхаус в кубере? https://github.com/Altinity/clickhouse-operator/blob/master/docs/chi-examples/02-templates-0...

#backend #clickhouse #database #devops #programming #russian

03.11.2023

0

22 ответов

Смотреть еще

ClickHouse не тормозит

Подписаться

Вопросов 34756

Ответов 72457

Участников 8768

Telegram @clickhouse_ru

Обсуждают сегодня

Господа, а что сейчас вообще с рынком труда на делфи происходит? Какова ситуация?

Rꙮman Yankꙮvsky

А вообще, что может смущать в самой Julia - бы сказал, что нет единого стандартного подхода по многим моментам, поэтому многое выглядит как "хаки" и произвол. Короче говоря, с...

30500 за редактор? )

Владимир

а через ESC-код ?

Чёт не понял, я ж правильной функцией воспользовался чтобы вывести отладочную информацию? но что-то она не ловится

У меня есть функция где происходит это: write_bit(buffer, 1); write_bit(buffer, 0); write_bit(buffer, 1); write_bit(buffer, 1); write_bit(buffer, 1); w...

Добрый день! Скажите пожалуйста, а какие программы вы бы рекомендовали написать для того, чтобы научиться управлять памятью? Можно написать динамический массив, можно связный ...

Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...

Ребят в СИ можно реализовать ООП?

https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_h_common.erl#L174 https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_olp.erl#L76 15 лет назад...

Карта сайта